論文の概要: HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization
- arxiv url: http://arxiv.org/abs/2504.21018v1
- Date: Mon, 21 Apr 2025 19:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-11 21:21:45.176386
- Title: HYPEROFA: Expanding LLM Vocabulary to New Languages via Hypernetwork-Based Embedding Initialization
- Title(参考訳): HYPEROFA:ハイパーネットワークベースの埋め込み初期化によるLLM語彙を新しい言語に拡張
- Authors: Enes Özeren, Yihong Liu, Hinrich Schütze,
- Abstract要約: 多くの事前訓練された言語モデル (PLM) は、中級言語と低級言語で最適な性能を示す。
これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。
より適応的なトークン埋め込みのためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
- 参考スコア(独自算出の注目度): 50.27950279695363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many pre-trained language models (PLMs) exhibit suboptimal performance on mid- and low-resource languages, largely due to limited exposure to these languages during pre-training. A common strategy to address this is to introduce new tokens specific to the target languages, initialize their embeddings, and apply continual pre-training on target-language data. Among such methods, OFA (Liu et al., 2024a) proposes a similarity-based subword embedding initialization heuristic that is both effective and efficient. However, OFA restricts target-language token embeddings to be convex combinations of a fixed number of source-language embeddings, which may limit expressiveness. To overcome this limitation, we propose HYPEROFA, a hypernetwork-based approach for more adaptive token embedding initialization. The hypernetwork is trained to map from an external multilingual word vector space to the PLMs token embedding space using source-language tokens. Once trained, it can generate flexible embeddings for target-language tokens, serving as a good starting point for continual pretraining. Experiments demonstrate that HYPEROFA consistently outperforms random initialization baseline and matches or exceeds the performance of OFA in both continual pre-training convergence and downstream task performance. We make the code publicly available.
- Abstract(参考訳): 多くの事前学習言語モデル (PLM) は、中級および低級の言語で最適性能を示す。
これを解決するための一般的な戦略は、ターゲット言語固有の新しいトークンを導入し、埋め込みを初期化し、ターゲット言語データに連続的な事前トレーニングを適用することである。
このような手法の中で、OFA (Liu et al , 2024a) は類似性に基づく単語埋め込み初期化ヒューリスティックを提案する。
しかしOFAは、ターゲット言語のトークン埋め込みを一定数のソース言語の埋め込みの凸結合に制限し、表現性を制限する可能性がある。
この制限を克服するために、より適応性の高いトークン埋め込み初期化のためのハイパーネットワークベースのアプローチであるHYPEROFAを提案する。
ハイパーネットワークは、外部の多言語単語ベクトル空間から、ソース言語トークンを使用して PLM トークンの埋め込み空間にマップするように訓練されている。
トレーニングが完了すると、ターゲット言語トークンのフレキシブルな埋め込みが生成され、継続的な事前トレーニングの出発点として機能する。
実験により、HYPEROFAはランダム初期化ベースラインを一貫して上回り、連続的な事前学習コンバージェンスと下流タスクパフォーマンスの両方においてOFAの性能と一致または上回っていることが示された。
コードを公開しています。
関連論文リスト
- MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models [31.231720803637085]
言語モデル(LM)は英語の自然言語処理タスクに優れるが、他のほとんどの言語では性能が低下している。
オリジナルのモデルのトークン化子の語彙範囲が限定されているため、新しい言語の表現が不十分になる。
制約付きWord2Vec (CW2V) は言語間埋め込みを必要としない。
論文 参考訳(メタデータ) (2024-07-08T11:38:49Z) - OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文 参考訳(メタデータ) (2023-11-15T10:40:45Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - FOCUS: Effective Embedding Initialization for Monolingual Specialization
of Multilingual Models [26.598115320351496]
FOCUSは、新たに追加されたトークンを、ソースとターゲット語彙の重複におけるトークンの組み合わせとして表現している。
我々は,マルチリンガルなXLM-Rをソースモデルとして用いることに焦点を当てた。
論文 参考訳(メタデータ) (2023-05-23T19:21:53Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。