論文の概要: Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective
- arxiv url: http://arxiv.org/abs/2510.02272v1
- Date: Thu, 02 Oct 2025 17:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.268698
- Title: Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective
- Title(参考訳): 並列スケーリング法:言語横断的視点による推論一般化の展開
- Authors: Wen Yang, Junhong Wu, Chong Li, Chengqing Zong, Jiajun Zhang,
- Abstract要約: 本研究は、推論一般化を探求する新たな言語横断的視点を提案する。
本研究により,言語間の伝達性は,初期モデル,対象言語,訓練パラダイムによって大きく異なることが明らかとなった。
我々の研究は、LRM推論が人間の認知を反映し、言語に依存しないLRMの開発に重要な洞察を与えるという仮定に挑戦する。
- 参考スコア(独自算出の注目度): 52.452449102961225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Reinforcement Post-Training (RPT) have significantly enhanced the capabilities of Large Reasoning Models (LRMs), sparking increased interest in the generalization of RL-based reasoning. While existing work has primarily focused on investigating its generalization across tasks or modalities, this study proposes a novel cross-linguistic perspective to investigate reasoning generalization. This raises a crucial question: $\textit{Does the reasoning capability achieved from English RPT effectively transfer to other languages?}$ We address this by systematically evaluating English-centric LRMs on multilingual reasoning benchmarks and introducing a metric to quantify cross-lingual transferability. Our findings reveal that cross-lingual transferability varies significantly across initial model, target language, and training paradigm. Through interventional studies, we find that models with stronger initial English capabilities tend to over-rely on English-specific patterns, leading to diminished cross-lingual generalization. To address this, we conduct a thorough parallel training study. Experimental results yield three key findings: $\textbf{First-Parallel Leap}$, a substantial leap in performance when transitioning from monolingual to just a single parallel language, and a predictable $\textbf{Parallel Scaling Law}$, revealing that cross-lingual reasoning transfer follows a power-law with the number of training parallel languages. Moreover, we identify the discrepancy between actual monolingual performance and the power-law prediction as $\textbf{Monolingual Generalization Gap}$, indicating that English-centric LRMs fail to fully generalize across languages. Our study challenges the assumption that LRM reasoning mirrors human cognition, providing critical insights for the development of more language-agnostic LRMs.
- Abstract(参考訳): 近年のReinforcement Post-Training (RPT) の進歩により, LRM(Large Reasoning Models) の能力が大幅に向上し, RLに基づく推論の一般化への関心が高まっている。
既存の研究は主にタスクやモダリティをまたいだ一般化の研究に焦点が当てられているが、本研究では推論一般化を探求する新たな言語横断的な視点を提案する。
$\textit{Does the reasoning capabilities achieved from English RPT effective transfer to other languages?
ここでは、多言語推論ベンチマークで英語中心のLRMを体系的に評価し、言語間移動可能性の定量化のための指標を導入することで、この問題に対処する。
本研究により,言語間の伝達性は,初期モデル,対象言語,訓練パラダイムによって大きく異なることが明らかとなった。
介入研究を通じて、英語能力の強いモデルは英語固有のパターンに過度に依存し、言語間の一般化が減少する傾向にあることがわかった。
この問題に対処するため、我々は徹底的な並列トレーニング研究を行っている。
実験結果は3つの重要な結果をもたらす: $\textbf{First-Parallel Leap}$、モノリンガルから単なる並列言語への移行時のパフォーマンスの大幅な飛躍、予測可能な$\textbf{Parallel Scaling Law}$。
さらに、実際のモノリンガル性能とパワーロー予測の相違を$\textbf{Monolingual Generalization Gap}$と同定し、英語中心のLRMが言語全体にわたって完全に一般化できないことを示す。
我々の研究は、LRM推論が人間の認知を反映し、言語に依存しないLRMの開発に重要な洞察を与えるという仮定に挑戦する。
関連論文リスト
- Cross-lingual Collapse: How Language-Centric Foundation Models Shape Reasoning in Large Language Models [44.94287386776289]
textbfCross-lingual Collapseは、多言語言語モデルが支配的な事前学習言語に回帰する体系的なドリフトである。
実験の結果, (i)GRPOは事前学習言語の不均衡を急速に増幅し, わずか数百回の更新で低リソース言語が侵食され, (ii) 言語整合性報酬はこのドリフトを緩和するが, ほぼ5~10ppの精度の低下を犠牲にしていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T08:08:48Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [86.98098988779809]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought [40.16140566668239]
AdaMCOTは多言語の事実推論を強化するフレームワークである。
AdaMCOTは、ターゲット言語応答を生成する前に、中間言語における思考プロセスを動的にルーティングする。
本評価は, 事実推論品質と言語間整合性の両方において, 大幅な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-27T15:48:57Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。