論文の概要: One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers
- arxiv url: http://arxiv.org/abs/2506.10766v1
- Date: Thu, 12 Jun 2025 14:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.787939
- Title: One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers
- Title(参考訳): プログラミング言語の可塑性を多言語トケナイザで制御する1つのトケナイザ
- Authors: Diana Abagyan, Alejandro R. Salamanca, Andres Felipe Cruz-Salinas, Kris Cao, Hangyu Lin, Acyr Locatelli, Marzieh Fadaee, Ahmet Üstün, Sara Hooker,
- Abstract要約: 早期訓練における比較的安価な介入が「言語可塑性」を改善するかについて検討する。
本稿では,初等事前学習言語よりも多くの言語で訓練されたユニバーサルトークン化器を提案する。
- 参考スコア(独自算出の注目度): 43.91164842493269
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pretraining massively multilingual Large Language Models (LLMs) for many languages at once is challenging due to limited model capacity, scarce high-quality data, and compute constraints. Moreover, the lack of language coverage of the tokenizer makes it harder to address the gap for new languages purely at the post-training stage. In this work, we study what relatively cheap interventions early on in training improve "language plasticity", or adaptation capabilities of the model post-training to new languages. We focus on tokenizer design and propose using a universal tokenizer that is trained for more languages than the primary pretraining languages to enable efficient adaptation in expanding language coverage after pretraining. Our systematic experiments across diverse groups of languages and different training strategies show that a universal tokenizer enables significantly higher language adaptation, with up to 20.2% increase in win rates compared to tokenizers specific to pretraining languages. Furthermore, a universal tokenizer also leads to better plasticity towards languages that are completely unseen in the tokenizer and pretraining, by up to 5% win rate gain. We achieve this adaptation to an expanded set of languages with minimal compromise in performance on the majority of languages included in pretraining.
- Abstract(参考訳): モデルキャパシティの制限、高品質なデータ不足、計算制約が原因で、多数の言語に対してLLM(Magical Multilingual Large Language Model)を一度にプリトレーニングすることは困難である。
さらに、トークンライザの言語カバレッジが欠如しているため、トレーニング後の段階では、新しい言語のギャップに純粋に対処することが難しくなる。
本研究は,学習の初期段階において比較的安価な介入が「言語可塑性」を改善するか,新しい言語への学習後のモデルの適応能力を改善するかを検討する。
本稿では,初等事前学習言語よりも多くの言語で訓練された普遍的トークン化器の設計と,事前学習後の言語カバレッジの拡大に有効な適応を可能にすることを提案する。
多様な言語群と異なる訓練戦略の体系的な実験により、普遍的トークン化器は、事前学習言語に特有のトークン化器と比較して最大20.2%の勝利率で、言語適応を著しく向上させることができることが示された。
さらに、普遍的なトークン化器は、トークン化器と事前訓練で完全に見えない言語に対して、最大5%の利得でより可塑性をもたらす。
この適応は、事前学習に含まれる言語の大部分において、最小限のパフォーマンスを損なうことなく、拡張された言語の集合に適応する。
関連論文リスト
- LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。
継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。
その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文 参考訳(メタデータ) (2024-05-13T13:41:59Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed? [40.13166574854085]
英語中心の大規模言語モデルにおいて,多言語間の一般化を実現するために必要な最小限の多言語性について検討する。
複数言語から3言語までの多言語命令チューニングは,効果的な言語間一般化を実現するのに必要かつ十分であることがわかった。
論文 参考訳(メタデータ) (2023-12-20T00:49:52Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Towards continually learning new languages [66.36852845415916]
言語のバッチ学習は経済的に有益だが、大きな課題は破滅的な忘れ方だ。
我々は,破滅的忘れを抑えるために,重量分解特性と弾性重みの固化特性を組み合わせる。
私たちは、すべての言語をゼロからトレーニングするのに比べ、破滅的な忘れものもなく、合理的なパフォーマンスで26の言語を達成しています。
論文 参考訳(メタデータ) (2022-11-21T18:24:34Z) - Phylogeny-Inspired Adaptation of Multilingual Models to New Languages [43.62238334380897]
我々は、言語系統情報を用いて、密接に関連する言語を活用する言語間移動を改善する方法を示す。
我々は,多言語(ゲルマン語,ウルリック語,トゥピ語,ウト・アステカン語)の言語をアダプタベースで学習し,構文的・意味的タスクの評価を行う。
論文 参考訳(メタデータ) (2022-05-19T15:49:19Z) - Match the Script, Adapt if Multilingual: Analyzing the Effect of
Multilingual Pretraining on Cross-lingual Transferability [26.553524219316188]
事前訓練された多言語モデルは、目に見えない言語でもゼロショット学習を可能にする。
事前学習中の言語に対するゼロショット学習に事前学習言語数がどのような影響を及ぼすかは明らかでない。
論文 参考訳(メタデータ) (2022-03-21T06:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。