論文の概要: OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining
- arxiv url: http://arxiv.org/abs/2311.08849v2
- Date: Mon, 25 Mar 2024 15:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 00:31:37.648912
- Title: OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining
- Title(参考訳): OFA: 大規模多言語継続事前学習のための未知語埋め込みを初期化するためのフレームワーク
- Authors: Yihong Liu, Peiqin Lin, Mingyang Wang, Hinrich Schütze,
- Abstract要約: 言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
- 参考スコア(独自算出の注目度): 49.213120730582354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instead of pretraining multilingual language models from scratch, a more efficient method is to adapt existing pretrained language models (PLMs) to new languages via vocabulary extension and continued pretraining. However, this method usually randomly initializes the embeddings of new subwords and introduces substantially more embedding parameters to the model, thus weakening the efficiency. To address these issues, we propose a novel framework: $\textbf{O}$ne $\textbf{F}$or $\textbf{A}$ll ($\textbf{OFA}$), which wisely initializes the embeddings of unseen subwords and thus can adapt a PLM to multiple languages efficiently and effectively. OFA takes advantage of external well-aligned multilingual static word vectors and injects the alignment knowledge into the subword embeddings. In addition, OFA applies matrix factorization and replaces the cumbersome embeddings with two lower-dimensional matrices, which largely reduces the number of parameters. We show OFA accelerates the convergence of continued pretraining, which is environmentally friendly as much fewer carbon footprints are generated. Through extensive experiments, we demonstrate OFA can achieve competitive or better performance than default continued pretraining baselines on a wide range of crosslingual downstream tasks. We make our code and models publicly available.
- Abstract(参考訳): 言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
しかし、この手法は通常、新しいサブワードの埋め込みをランダムに初期化し、モデルにかなり多くの埋め込みパラメータを導入し、効率を低下させる。
これらの問題に対処するために、新しいフレームワークを提案する。 $\textbf{O}$ne $\textbf{F}$or $\textbf{A}$ll ($\textbf{OFA}$)。
OFAは、外部の多言語静的単語ベクトルを利用して、アライメント知識をサブワード埋め込みに注入する。
さらに、OFAは行列分解を適用し、2つの低次元行列にカンサム埋め込みを置き換え、パラメータの数が大幅に減少する。
OFAは炭素フットプリントの発生が少ないほど環境に優しい継続事前訓練の収束を加速することを示す。
広範にわたる実験により、OFAは、広範囲にわたる下流タスクにおけるベースラインのトレーニングを継続するデフォルトよりも、競争力やパフォーマンスが向上することを示した。
コードとモデルを公開しています。
関連論文リスト
- An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models [31.231720803637085]
言語モデル(LM)は英語の自然言語処理タスクに優れるが、他のほとんどの言語では性能が低下している。
オリジナルのモデルのトークン化子の語彙範囲が限定されているため、新しい言語の表現が不十分になる。
制約付きWord2Vec (CW2V) は言語間埋め込みを必要としない。
論文 参考訳(メタデータ) (2024-07-08T11:38:49Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Embedding structure matters: Comparing methods to adapt multilingual
vocabularies to new languages [20.17308477850864]
事前訓練された多言語言語モデルは、英語以外の現代のNLPツールの大部分を支えている。
本稿では,言語間語彙をコンパクトな言語固有の語彙に置き換える,いくつかの簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T04:27:18Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - FOCUS: Effective Embedding Initialization for Monolingual Specialization
of Multilingual Models [26.598115320351496]
FOCUSは、新たに追加されたトークンを、ソースとターゲット語彙の重複におけるトークンの組み合わせとして表現している。
我々は,マルチリンガルなXLM-Rをソースモデルとして用いることに焦点を当てた。
論文 参考訳(メタデータ) (2023-05-23T19:21:53Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。