論文の概要: Vocabulary Expansion for Low-resource Cross-lingual Transfer
- arxiv url: http://arxiv.org/abs/2406.11477v1
- Date: Mon, 17 Jun 2024 12:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:51:50.301712
- Title: Vocabulary Expansion for Low-resource Cross-lingual Transfer
- Title(参考訳): 低リソース言語間移動のための語彙拡張
- Authors: Atsuki Yamaguchi, Aline Villavicencio, Nikolaos Aletras,
- Abstract要約: 大きな言語モデル(LLM)は、英語以外の多くの言語で顕著な能力を示している。
LLMは、英語中心のトークン化器、語彙、事前学習データに依存するため、英語以外のテキストを生成する際にさらに推論ステップを必要とする。
ターゲット言語トークンによる語彙拡張は、この問題を改善するために広く使われている言語間語彙適応手法である。
- 参考スコア(独自算出の注目度): 38.1823640848362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in many languages beyond English. Yet, LLMs require more inference steps when generating non-English text due to their reliance on English-centric tokenizers, vocabulary, and pre-training data, resulting in higher usage costs to non-English speakers. Vocabulary expansion with target language tokens is a widely used cross-lingual vocabulary adaptation approach to remedy this issue. Despite its effectiveness in inference speedup, the majority of previous work has focused on high-resource settings assuming access to a substantial amount of target language data to effectively initialize the embeddings of the new tokens and adapt the LLM to the target language. However, vocabulary expansion for LLMs in low-resource settings (i.e. languages and compute) has yet to be explored. In this paper, we investigate sample-efficient adaptation strategies from different angles, including target vocabulary size and initialization methods, and the amount of target data available for adaptation. Extensive experiments across typologically diverse languages, tasks and models show that simpler heuristic-based embedding initialization is more efficient and robust to changes in target vocabulary size and adaptation data in low-resource settings, outperforming a popular random initialization and a more sophisticated state-of-the-art approach that relies on external data and model.
- Abstract(参考訳): 大きな言語モデル(LLM)は、英語以外の多くの言語で顕著な能力を示している。
しかし、LLMは、英語中心のトークン化器、語彙、事前学習データに依存するため、非英語のテキストを生成する際により多くの推論ステップを必要とするため、非英語話者の使用コストが高くなる。
ターゲット言語トークンによる語彙拡張は、この問題を改善するために広く使われている言語間語彙適応手法である。
推論スピードアップの有効性にもかかわらず、以前の研究の大部分は、大量のターゲット言語データにアクセスして新しいトークンの埋め込みを効果的に初期化し、LLMをターゲット言語に適応させるという、高リソース設定に重点を置いてきた。
しかし、低リソース設定(言語や計算)におけるLLMの語彙拡張はまだ検討されていない。
本稿では,ターゲット語彙サイズや初期化手法,適応可能なターゲットデータの量など,異なる角度からのサンプル効率適応戦略について検討する。
言語、タスク、モデルにまたがる広範な実験により、より単純なヒューリスティックな埋め込み初期化はより効率的で、低リソース環境でのターゲット語彙サイズや適応データの変化に対して堅牢であり、一般的なランダム初期化と、外部データやモデルに依存するより洗練された最先端のアプローチよりも優れていることが示されている。
関連論文リスト
- Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - Adapters for Altering LLM Vocabularies: What Languages Benefit the Most? [23.83290627671739]
本稿では,既存の埋め込みの最適線形結合を学習するために訓練されたアダプタモジュールを用いた語彙適応手法を提案する。
VocADTは、外部リソースや言語制約を必要とせずに、柔軟でスケーラブルなソリューションを提供する。
ラテン文字言語と高度に断片化された言語は語彙適応の恩恵を最も受ける。
論文 参考訳(メタデータ) (2024-10-12T20:45:24Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Accelerating Multilingual Language Model for Excessively Tokenized Languages [3.5570874721859016]
大型言語モデル(LLM)のトークン化子は、文字やUnicodeレベルのトークンを非ローマ語アルファベットの言語で断片化することが多い。
このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T12:26:57Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。