論文の概要: When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy
- arxiv url: http://arxiv.org/abs/2505.22888v1
- Date: Wed, 28 May 2025 21:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.552941
- Title: When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy
- Title(参考訳): モデルが言語で理にかなっているとき: 正確さを犠牲にしてトレース言語が生まれることを制御
- Authors: Jirui Qi, Shan Chen, Zidi Xiong, Raquel Fernández, Danielle S. Bitterman, Arianna Bisazza,
- Abstract要約: 思考トレースを持つLarge Reasoning Models (LRMs) は、英語の推論タスクに強いパフォーマンスを示している。
なぜなら、ユーザーは自分の言語で表現された場合にのみ、その推論トレースが監視に有用であることを見つけることができるからだ。
我々は、XReasoningベンチマークでLRMの2つの主要なファミリーを評価し、最も先進的なモデルでさえしばしば英語に戻るか、他の言語で断片化された推論を生成することを発見した。
- 参考スコア(独自算出の注目度): 9.021965237274244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Large Reasoning Models (LRMs) with thinking traces have shown strong performance on English reasoning tasks. However, their ability to think in other languages is less studied. This capability is as important as answer accuracy for real world applications because users may find the reasoning trace useful for oversight only when it is expressed in their own language. We comprehensively evaluate two leading families of LRMs on our XReasoning benchmark and find that even the most advanced models often revert to English or produce fragmented reasoning in other languages, revealing a substantial gap in multilingual reasoning. Prompt based interventions that force models to reason in the users language improve readability and oversight but reduce answer accuracy, exposing an important trade off. We further show that targeted post training on just 100 examples mitigates this mismatch, though some accuracy loss remains. Our results highlight the limited multilingual reasoning capabilities of current LRMs and outline directions for future work. Code and data are available at https://github.com/Betswish/mCoT-XReasoning.
- Abstract(参考訳): 最近のLarge Reasoning Models (LRMs) は、英語の推論タスクにおいて強い性能を示している。
しかし、他の言語で考える能力はあまり研究されていない。
なぜなら、ユーザーは自分の言語で表現された場合にのみ、その推論トレースが監視に有用であることを見つけることができるからだ。
我々は、XReasoningベンチマークでLRMの2つの主要なファミリーを総合的に評価し、最も先進的なモデルでさえ、しばしば英語に戻すか、他の言語で断片化された推論を生成し、多言語推論において大きなギャップがあることを見出した。
ユーザ言語でモデルに推論を強制するプロンプトベースの介入は、可読性と監視を改善するが、回答の精度は低下し、重要なトレードオフが露呈する。
さらに、たった100件のサンプルを対象とするポストトレーニングは、このミスマッチを緩和するが、ある程度の精度の損失は残る。
本研究は,LRMの多言語推論能力の限界と今後の課題について概説した。
コードとデータはhttps://github.com/Betswish/mCoT-XReasoning.comで公開されている。
関連論文リスト
- Paths Not Taken: Understanding and Mending the Multilingual Factual Recall Pipeline [36.2731426595852]
その結果,多言語大言語モデル (LLM) は,他の言語に比べて,実際のリコールタスクにおいて有意に優れた性能を示すことがわかった。
事実的リコールのための信頼性の高い英語中心のメカニズムの関与が不十分なことと、ターゲット言語への英語からの誤った翻訳である。
我々の介入によって、最低パフォーマンス言語では、リコール精度が35%以上向上しました。
論文 参考訳(メタデータ) (2025-05-26T22:20:45Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Language Mixing in Reasoning Language Models: Patterns, Impact, and Internal Causes [49.770097731093216]
RLM(Reasoning Language Model)は、チェーン・オブ・シント・プロセスを利用して構造化中間ステップを生成することで、複雑なタスクに優れる。
言語混合、すなわちプロンプト以外の言語からのトークンを含む推論ステップがアウトプットで観測され、性能に影響することが示されている。
本研究では, RLMにおける言語混合に関する最初の体系的研究を行い, そのパターン, 影響, 内部要因を15言語にわたって検討した。
論文 参考訳(メタデータ) (2025-05-20T18:26:53Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。