論文の概要: Operationalizing a National Digital Library: The Case for a Norwegian
Transformer Model
- arxiv url: http://arxiv.org/abs/2104.09617v1
- Date: Mon, 19 Apr 2021 20:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 03:45:07.186968
- Title: Operationalizing a National Digital Library: The Case for a Norwegian
Transformer Model
- Title(参考訳): 国立デジタル図書館の運用:ノルウェーのトランスフォーマーモデルの場合
- Authors: Per E Kummervold, Javier de la Rosa, Freddy Wetjen, Svein Arne
Brygfjeld
- Abstract要約: 国立図書館でデジタルコレクションとデジタルコレクションから大規模なトレーニングセットを構築するプロセスを紹介します。
ノルウェー語のための変換器(BERT)に基づく双方向表現は、複数のトークンおよびシーケンス分類タスクにおいて多言語BERT(mBERT)モデルより優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we show the process of building a large-scale training set from
digital and digitized collections at a national library. The resulting
Bidirectional Encoder Representations from Transformers (BERT)-based language
model for Norwegian outperforms multilingual BERT (mBERT) models in several
token and sequence classification tasks for both Norwegian Bokm{\aa}l and
Norwegian Nynorsk. Our model also improves the mBERT performance for other
languages present in the corpus such as English, Swedish, and Danish. For
languages not included in the corpus, the weights degrade moderately while
keeping strong multilingual properties. Therefore, we show that building
high-quality models within a memory institution using somewhat noisy optical
character recognition (OCR) content is feasible, and we hope to pave the way
for other memory institutions to follow.
- Abstract(参考訳): 本稿では,国立図書館において,デジタルコレクションとデジタルコレクションの大規模な学習セットを構築する過程を示す。
ノルウェーの変換器(BERT)に基づく言語モデルによる双方向エンコーダ表現は、ノルウェーのBokm{\aa}lおよびノルウェーのNynorskの複数のトークンおよびシーケンス分類タスクにおいて、多言語BERT(mBERT)モデルより優れている。
我々のモデルは、英語、スウェーデン語、デンマーク語などのコーパスに存在する他の言語に対するmBERTの性能も改善する。
コーパスに含まれない言語では、重みは強い多言語特性を維持しながら適度に低下する。
そこで,我々は,OCR(Oonosy Optical character recognition)コンテンツを用いたメモリシステム内で高品質なモデルを構築することが可能であることを示し,他のメモリシステムに追従する道を開いたいと願っている。
関連論文リスト
- Accidental Learners: Spoken Language Identification in Multilingual
Self-Supervised Models [11.439430077017635]
事前学習された音声モデルは,下位層における言語識別情報を最適に符号化する。
これらの層から得られる埋め込みは、目に見えない言語を分類するのに非常に堅牢であることを示す。
NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2022-11-09T18:53:59Z) - A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language
Models [0.0]
アイスランド語のためのいくつかの言語モデルをトレーニングし、IceBERTは様々なダウンストリームタスクで最先端のパフォーマンスを達成する。
我々は,アイスランドの上位レベルドメイン(TLD)をターゲットとして,高品質なテキストの集合体であるアイスランド・コモン・クローリング・コーパス(IC3)を新たに導入する。
ロー・ミディアム・リソース言語に対するNLPアプリケーションにおいて, クロールしたコーパスを適切に洗浄すれば, 最先端の処理結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-14T18:45:31Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文 参考訳(メタデータ) (2021-04-13T23:18:04Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Playing with Words at the National Library of Sweden -- Making a Swedish
BERT [0.0]
本稿では,スウェーデン国立図書館(KB)のデータ駆動研究のためにKBLabが開発したスウェーデンのBERT(KB-BERT)を紹介する。
スウェーデン語以外の言語のためのトランスフォーマーベースのBERTモデルを作成するための最近の取り組みに基づいて、KBのコレクションを使用して、スウェーデン語向けの新しい言語固有のBERTモデルを作成およびトレーニングする方法を説明します。
論文 参考訳(メタデータ) (2020-07-03T12:53:39Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。