論文の概要: Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.07300v1
- Date: Wed, 08 Oct 2025 17:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.681295
- Title: Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning
- Title(参考訳): ネイティブに考える:一貫性強化強化学習による多言語推論の解錠
- Authors: Xue Zhang, Yunlong Liang, Fandong Meng, Songming Zhang, Kaiyu Huang, Yufeng Chen, Jinan Xu, Jie Zhou,
- Abstract要約: 本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。
M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 85.7304930030649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have achieved remarkable performance on complex reasoning tasks by adopting the "think-then-answer" paradigm, which enhances both accuracy and interpretability. However, current LRMs exhibit two critical limitations when processing non-English languages: (1) They often struggle to maintain input-output language consistency; (2) They generally perform poorly with wrong reasoning paths and lower answer accuracy compared to English. These limitations significantly degrade the user experience for non-English speakers and hinder the global deployment of LRMs. To address these limitations, we propose M-Thinker, which is trained by the GRPO algorithm that involves a Language Consistency (LC) reward and a novel Cross-lingual Thinking Alignment (CTA) reward. Specifically, the LC reward defines a strict constraint on the language consistency between the input, thought, and answer. Besides, the CTA reward compares the model's non-English reasoning paths with its English reasoning path to transfer its own reasoning capability from English to non-English languages. Through an iterative RL procedure, our M-Thinker-1.5B/7B models not only achieve nearly 100% language consistency and superior performance on two multilingual benchmarks (MMATH and PolyMath), but also exhibit excellent generalization on out-of-domain languages.
- Abstract(参考訳): 大規模推論モデル (LRM) は、精度と解釈可能性の両方を高める「思考-答え」パラダイムを採用することで、複雑な推論タスクにおいて顕著な性能を達成している。
しかし、現在のLRMは、(1)入力出力言語一貫性の維持に苦慮することが多い、(2)誤った推論経路と、英語に比べて回答精度が低い、という2つの重要な制限を呈している。
これらの制限は、非英語話者のユーザエクスペリエンスを著しく低下させ、LRMのグローバル展開を妨げる。
これらの制約に対処するため,言語一貫性(LC)報酬と新たな言語間思考アライメント(CTA)報酬を含むGRPOアルゴリズムによって訓練されたM-Thinkerを提案する。
具体的には、LC報酬は入力、思考、答えの間の言語の一貫性に関する厳密な制約を定義する。
さらに、CTA報酬は、このモデルの非英語推論パスと、自身の推論能力を英語から非英語に移行する英語推論パスを比較している。
我々のM-Thinker-1.5B/7Bモデルは、反復的なRLプロシージャによって、100%近い言語一貫性と2つの多言語ベンチマーク(MMATHとPolyMath)の性能を達成するだけでなく、ドメイン外の言語に優れた一般化をもたらす。
関連論文リスト
- Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective [52.452449102961225]
本研究は、推論一般化を探求する新たな言語横断的視点を提案する。
本研究により,言語間の伝達性は,初期モデル,対象言語,訓練パラダイムによって大きく異なることが明らかとなった。
我々の研究は、LRM推論が人間の認知を反映し、言語に依存しないLRMの開発に重要な洞察を与えるという仮定に挑戦する。
論文 参考訳(メタデータ) (2025-10-02T17:49:49Z) - Cross-lingual Collapse: How Language-Centric Foundation Models Shape Reasoning in Large Language Models [44.94287386776289]
textbfCross-lingual Collapseは、多言語言語モデルが支配的な事前学習言語に回帰する体系的なドリフトである。
実験の結果, (i)GRPOは事前学習言語の不均衡を急速に増幅し, わずか数百回の更新で低リソース言語が侵食され, (ii) 言語整合性報酬はこのドリフトを緩和するが, ほぼ5~10ppの精度の低下を犠牲にしていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T08:08:48Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Cross-Lingual Consistency: A Novel Inference Framework for Advancing Reasoning in Large Language Models [10.231866835957538]
大型言語モデル(LLM)における推論能力を高める重要なメカニズムとして、Chain-of-Thought(CoT)が登場した。
LLMの推論能力を高めるために,多数決による多言語推論経路を統合した言語間整合性(CLC)フレームワークを提案する。
CMATHデータセットの実証評価により、従来の自己整合性法よりもCLCの方が優れていることが明らかになった。
論文 参考訳(メタデータ) (2025-04-02T16:09:39Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [86.98098988779809]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。