論文の概要: Cross-lingual Collapse: How Language-Centric Foundation Models Shape Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.05850v2
- Date: Mon, 09 Jun 2025 11:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.166783
- Title: Cross-lingual Collapse: How Language-Centric Foundation Models Shape Reasoning in Large Language Models
- Title(参考訳): 言語間の崩壊:大規模言語モデルにおける言語中心基礎モデルの形状推論
- Authors: Cheonbok Park, Jeonghoon Kim, Joosung Lee, Sanghwan Bae, Jaegul Choo, Kang Min Yoo,
- Abstract要約: textbfCross-lingual Collapseは、多言語言語モデルが支配的な事前学習言語に回帰する体系的なドリフトである。
実験の結果, (i)GRPOは事前学習言語の不均衡を急速に増幅し, わずか数百回の更新で低リソース言語が侵食され, (ii) 言語整合性報酬はこのドリフトを緩和するが, ほぼ5~10ppの精度の低下を犠牲にしていることがわかった。
- 参考スコア(独自算出の注目度): 44.94287386776289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify \textbf{Cross-lingual Collapse}, a systematic drift in which the chain-of-thought (CoT) of a multilingual language model reverts to its dominant pre-training language even when the prompt is expressed in a different language. Recent large language models (LLMs) with reinforcement learning with verifiable reward (RLVR) have achieved strong logical reasoning performances by exposing their intermediate reasoning traces, giving rise to large reasoning models (LRMs). However, the mechanism behind multilingual reasoning in LRMs is not yet fully explored. To investigate the issue, we fine-tune multilingual LRMs with Group-Relative Policy Optimization (GRPO) on translated versions of the GSM$8$K and SimpleRL-Zoo datasets in three different languages: Chinese, Korean, and Ukrainian. During training, we monitor both task accuracy and language consistency of the reasoning chains. Our experiments reveal three key findings: (i) GRPO rapidly amplifies pre-training language imbalances, leading to the erosion of low-resource languages within just a few hundred updates; (ii) language consistency reward mitigates this drift but does so at the expense of an almost 5 - 10 pp drop in accuracy. and (iii) the resulting language collapse is severely damaging and largely irreversible, as subsequent fine-tuning struggles to steer the model back toward its original target-language reasoning capabilities. Together, these findings point to a remarkable conclusion: \textit{not all languages are trained equally for reasoning}. Furthermore, our paper sheds light on the roles of reward shaping, data difficulty, and pre-training priors in eliciting multilingual reasoning.
- Abstract(参考訳): 多言語言語モデルのチェーン・オブ・シント(CoT)が、異なる言語でプロンプトが表現された場合でも、その支配的な事前学習言語に回帰する体系的なドリフトである「textbf{Cross-lingual Collapse」を同定する。
近年の強化学習(RLVR)による大規模言語モデル(LLM)は,その中間的推論トレースを公開することによって,論理的推論性能が向上し,大きな推論モデル(LRM)がもたらされた。
しかし、LRMにおける多言語推論のメカニズムはまだ完全には解明されていない。
GSM$8$KとSimpleRL-Zooデータセットを中国語、韓国語、ウクライナ語の3言語で翻訳した上で、GRPO(Group-Relative Policy Optimization)を用いた多言語LEMを微調整した。
トレーニング中は、推論チェーンのタスク精度と言語整合性の両方を監視します。
私たちの実験では3つの重要な発見がありました。
(i)GRPOは、事前学習言語の不均衡を急速に増幅し、わずか数百回の更新で低リソース言語が侵食される。
(ii)言語一貫性報酬は、このドリフトを緩和するが、ほぼ5~10ppの精度低下を犠牲にしている。
そして
3) 結果として生じる言語崩壊は、そのモデルが元のターゲット言語推論能力に戻すための微調整の苦労により、ひどく損傷を受け、ほとんど不可逆である。
これらとともに、これらの発見は顕著な結論を示している: \textit{not all languages are equal training for reasoning}。
さらに,本論文は,多言語推論の抽出における報酬形成,データ難易度,事前学習といった役割に光を当てている。
関連論文リスト
- When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy [9.021965237274244]
思考トレースを持つLarge Reasoning Models (LRMs) は、英語の推論タスクに強いパフォーマンスを示している。
なぜなら、ユーザーは自分の言語で表現された場合にのみ、その推論トレースが監視に有用であることを見つけることができるからだ。
我々は、XReasoningベンチマークでLRMの2つの主要なファミリーを評価し、最も先進的なモデルでさえしばしば英語に戻るか、他の言語で断片化された推論を生成することを発見した。
論文 参考訳(メタデータ) (2025-05-28T21:44:12Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Scaling Test-time Compute for Low-resource Languages: Multilingual Reasoning in LLMs [3.9530780161144667]
本稿では,大規模言語モデルが潜在空間で内部的に操作する多言語メカニズムについて検討する。
我々は、低リソース言語での入力を条件に、ターゲット言語で最終応答を出力しながら、英語でチェーン・オブ・ソート(CoT)を生成するモデルを訓練する。
我々の実験では、この手法は英語によるCoTトレーニングと呼ばれ、28.33%の改善で他のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-04-02T16:58:36Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。