論文の概要: English is Not All You Need: Systematically Exploring the Role of Multilinguality in LLM Post-Training
- arxiv url: http://arxiv.org/abs/2604.13286v1
- Date: Tue, 14 Apr 2026 20:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.290445
- Title: English is Not All You Need: Systematically Exploring the Role of Multilinguality in LLM Post-Training
- Title(参考訳): 英語は必要なすべてではない: LLMポストトライニングにおける多言語性の役割を体系的に探求する
- Authors: Mehak Dhaliwal, Shashwat Chaurasia, Yao Qin, Dezhi Hong, Thomas Butler,
- Abstract要約: ポストトレーニングパイプラインは主に英語中心であり、言語間のパフォーマンス格差に寄与している。
本稿では,学習言語カバレッジ,モデルスケール,タスクドメイン間の相互作用を体系的に制御した研究を行う。
ポストトレーニング中の言語カバレッジの増加は、タスクやモデルスケールに大きく影響している。
- 参考スコア(独自算出の注目度): 7.141617235075284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the widespread multilingual deployment of large language models, post-training pipelines remain predominantly English-centric, contributing to performance disparities across languages. We present a systematic, controlled study of the interplay between training language coverage, model scale, and task domain, based on 220 supervised fine-tuning runs on parallel translated multilingual data mixtures spanning mathematical reasoning and API calling tasks, with models up to 8B parameters. We find that increasing language coverage during post-training is largely beneficial across tasks and model scales, with low-resource languages benefiting the most and high-resource languages plateauing rather than degrading. Even minimal multilinguality helps: incorporating a single non-English language improves both English performance and cross-lingual generalization, making English-only post-training largely suboptimal. Moreover, at sufficient language diversity, zero-shot cross-lingual transfer can match or exceed the effects of direct language inclusion in a low-diversity setting, although gains remain limited for typologically distant, low-resource languages.
- Abstract(参考訳): 大規模な言語モデルの多言語展開にもかかわらず、ポストトレーニングパイプラインは主に英語中心であり、言語間のパフォーマンス格差に寄与している。
数理推論とAPI呼び出しタスクにまたがる並列翻訳多言語データ混合物上での220個の教師付き微調整実行に基づいて,最大8Bパラメータのモデルを用いて,訓練言語カバレッジ,モデルスケール,タスクドメイン間の相互作用を体系的に制御した研究を行った。
ポストトレーニング中の言語カバレッジの増加は、タスクやモデルスケールに大きく影響している。
英語以外の1つの言語を組み込むことで、英語のパフォーマンスと言語間の一般化が向上し、英語のみのポストトレーニングがほぼ最適になる。
さらに、十分な言語多様性において、ゼロショットの言語間移動は、タイポロジー的に離れた低リソース言語に限られているにもかかわらず、低多様性設定における直接言語包含の影響と一致または超えうる。
関連論文リスト
- Revisiting Multilingual Data Mixtures in Language Model Pretraining [20.282622416939997]
大規模言語モデルの事前学習における多言語データ混合の影響について検討する。
英語と多言語のデータの組み合わせは、いずれかのグループの言語内性能を劣化させるとは限らない。
トレーニング言語の数が増加するにつれて、重要な「多言語性の帰結」は観測されない。
論文 参考訳(メタデータ) (2025-10-29T20:46:03Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。
継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。
その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文 参考訳(メタデータ) (2024-05-13T13:41:59Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed? [40.13166574854085]
英語中心の大規模言語モデルにおいて,多言語間の一般化を実現するために必要な最小限の多言語性について検討する。
複数言語から3言語までの多言語命令チューニングは,効果的な言語間一般化を実現するのに必要かつ十分であることがわかった。
論文 参考訳(メタデータ) (2023-12-20T00:49:52Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Language Chameleon: Transformation analysis between languages using
Cross-lingual Post-training based on Pre-trained language models [4.731313022026271]
本研究では,1つの低リソース言語に着目し,言語横断後学習(XPT)を用いた広範囲な評価と探索実験を行う。
結果から,XPTは桁違いのデータ量で訓練された単言語モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-09-14T05:20:52Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。