論文の概要: OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient
Large-scale Multilingual Continued Pretraining
- arxiv url: http://arxiv.org/abs/2311.08849v1
- Date: Wed, 15 Nov 2023 10:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:21:06.820389
- Title: OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient
Large-scale Multilingual Continued Pretraining
- Title(参考訳): OFA: 大規模多言語継続事前学習のための未知語埋め込み初期化フレームワーク
- Authors: Yihong Liu, Peiqin Lin, Mingyang Wang, Hinrich Sch\"utze
- Abstract要約: より効率的な方法は、既存の事前学習言語モデルを語彙拡張と継続事前訓練によって新しい言語に適応させることである。
この手法は通常、新しいサブワードの埋め込みをランダムに初期化し、言語モデルにかなり多くの埋め込みパラメータを導入する。
textbfOne textbfFor textbfAll (textbfOfa) という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.719398293119976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining multilingual language models from scratch requires considerable
computational resources and substantial training data. Therefore, a more
efficient method is to adapt existing pretrained language models (PLMs) to new
languages via vocabulary extension and continued pretraining. However, this
method usually randomly initializes the embeddings of new subwords and
introduces substantially more embedding parameters to the language model, thus
weakening the efficiency. To address these issues, we propose a novel
framework: \textbf{O}ne \textbf{F}or \textbf{A}ll (\textbf{\textsc{Ofa}}),
which wisely initializes the embeddings of unseen subwords from target
languages and thus can adapt a PLM to multiple languages efficiently and
effectively. \textsc{Ofa} takes advantage of external well-aligned multilingual
word embeddings and injects the alignment knowledge into the new embeddings. In
addition, \textsc{Ofa} applies matrix factorization and replaces the cumbersome
embeddings with two lower-dimensional matrices, which significantly reduces the
number of parameters while not sacrificing the performance. Through extensive
experiments, we show models initialized by \textsc{Ofa} are efficient and
outperform several baselines. \textsc{Ofa} not only accelerates the convergence
of continued pretraining, which is friendly to a limited computation budget,
but also improves the zero-shot crosslingual transfer on a wide range of
downstream tasks. We make our code and models publicly available.
- Abstract(参考訳): スクラッチから多言語モデルの事前学習には、かなりの計算資源とかなりのトレーニングデータが必要である。
したがって、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させるのがより効率的な方法である。
しかし、この手法は通常、新しいサブワードの埋め込みをランダムに初期化し、言語モデルにかなり多くの埋め込みパラメータを導入し、効率を弱める。
これらの問題に対処するために、新しいフレームワークを提案する: \textbf{O}ne \textbf{F}or \textbf{A}ll (\textbf{\textsc{Ofa}})。
\textsc{ofa} は、外部に整列した多言語単語埋め込みを活用し、新しい組込みにアライメント知識を注入する。
さらに、textsc{Ofa} は行列分解を適用し、2つの低次元行列にカンサム埋め込みを置き換え、性能を犠牲にすることなくパラメータの数を著しく削減する。
広範な実験を通じて, \textsc{ofa} によって初期化されるモデルが,複数のベースラインよりも効率的であることを示す。
\textsc{ofa} は、限られた計算予算に優しい、継続前訓練の収束を加速するだけでなく、幅広い下流タスクにおけるゼロショットクロスリンガル転送を改善する。
コードとモデルを公開しています。
関連論文リスト
- An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models [31.231720803637085]
言語モデル(LM)は英語の自然言語処理タスクに優れるが、他のほとんどの言語では性能が低下している。
オリジナルのモデルのトークン化子の語彙範囲が限定されているため、新しい言語の表現が不十分になる。
制約付きWord2Vec (CW2V) は言語間埋め込みを必要としない。
論文 参考訳(メタデータ) (2024-07-08T11:38:49Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Embedding structure matters: Comparing methods to adapt multilingual
vocabularies to new languages [20.17308477850864]
事前訓練された多言語言語モデルは、英語以外の現代のNLPツールの大部分を支えている。
本稿では,言語間語彙をコンパクトな言語固有の語彙に置き換える,いくつかの簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T04:27:18Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - FOCUS: Effective Embedding Initialization for Monolingual Specialization
of Multilingual Models [26.598115320351496]
FOCUSは、新たに追加されたトークンを、ソースとターゲット語彙の重複におけるトークンの組み合わせとして表現している。
我々は,マルチリンガルなXLM-Rをソースモデルとして用いることに焦点を当てた。
論文 参考訳(メタデータ) (2023-05-23T19:21:53Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。