論文の概要: What Makes Good Multilingual Reasoning? Disentangling Reasoning Traces with Measurable Features
- arxiv url: http://arxiv.org/abs/2604.04720v1
- Date: Mon, 06 Apr 2026 14:40:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.228478
- Title: What Makes Good Multilingual Reasoning? Disentangling Reasoning Traces with Measurable Features
- Title(参考訳): 良質な多言語推論とは何か? 測定可能な特徴を持つトレースを遠ざける
- Authors: Dayeon Ki, Kevin Duh, Marine Carpuat,
- Abstract要約: この研究は、多言語設定における効果的な推論を実際に特徴付けるものについて尋ねる。
まず、多言語アライメント、推論ステップ、推論トレースの推論フロー側面にまたがる測定可能な推論機能群を定義した。
次に、多言語トレース上でスパースオートエンコーダをトレーニングし、これらの機能をインスタンス化または拡張する潜在推論概念を自動的に検出する。
- 参考スコア(独自算出の注目度): 32.31269959716733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) still exhibit large performance gaps between English and other languages, yet much current work assumes these gaps can be closed simply by making reasoning in every language resemble English reasoning. This work challenges this assumption by asking instead: what actually characterizes effective reasoning in multilingual settings, and to what extent do English-derived reasoning features genuinely help in other languages? We first define a suite of measurable reasoning features spanning multilingual alignment, reasoning step, and reasoning flow aspects of reasoning traces, and use logistic regression to quantify how each feature associates with final answer accuracy. We further train sparse autoencoders over multilingual traces to automatically discover latent reasoning concepts that instantiate or extend these features. Finally, we use the features as test-time selection policies to examine whether they can steer models toward stronger multilingual reasoning. Across two mathematical reasoning benchmarks, four LRMs, and 10 languages, we find that most features are positively associated with accuracy, but the strength of association varies considerably across languages and can even reverse in some. Our findings challenge English-centric reward designs and point toward adaptive objectives that accommodate language-specific reasoning patterns, with concrete implications for multilingual benchmark and reward design.
- Abstract(参考訳): 大きな推論モデル(LRM)は、英語と他の言語の間に大きなパフォーマンスギャップがあるが、現在の研究の多くは、すべての言語の推論を英語の推論に類似させることで、これらのギャップを閉じることができると仮定している。
この作業は、多言語設定における効果的な推論を実際に特徴付けるものは何で、英語由来の推論機能は、他の言語で真に役に立つのか、という問いに、この仮定に挑戦する。
まず、多言語アライメント、推論ステップ、推論トレースの推論フロー側面にまたがる測定可能な推論機能群を定義し、ロジスティック回帰を用いて各特徴が最終回答精度とどのように関連しているかを定量化する。
さらに、多言語トレース上でスパースオートエンコーダを訓練し、これらの機能をインスタンス化または拡張する潜在推論概念を自動的に検出する。
最後に、これらの機能をテスト時選択ポリシーとして使用し、より強力な多言語推論に向けてモデルを操れるかどうかを検討する。
2つの数学的推論ベンチマーク、4つのLEM、および10の言語で、ほとんどの特徴は正の相関関係にあるが、関連性の強さは言語によって大きく異なり、一部では逆になることもある。
本研究は,多言語ベンチマークと報酬設計を具体的に含み,言語固有の推論パターンに適合する英語中心の報酬設計と適応目的への視点に挑戦する。
関連論文リスト
- Align to the Pivot: Dual Alignment with Self-Feedback for Multilingual Math Reasoning [71.4175109189942]
Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR)を提案する。
このアプローチは、モデルの第一言語をピボット言語として指定する。
外部の正しい回答や報酬モデルに頼ることなく、言語横断的な自己フィードバック機構を確立する。
論文 参考訳(メタデータ) (2026-01-25T03:20:00Z) - A Comprehensive Evaluation of Multilingual Chain-of-Thought Reasoning: Performance, Consistency, and Faithfulness Across Languages [48.68444770923683]
マルチリンガル・チェーン・オブ・ソート(CoT)推論の最初の包括的研究について述べる。
LRMがターゲット言語ですぐに考えることができる場合、言語コンプライアンス、解答精度、解答一貫性を計測する。
思考の痕跡の質と有効性は、素早い言語によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2025-10-10T17:06:50Z) - Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [39.03934159726098]
M2Aは,マルチスケール多言語アライメントと,機械翻訳された質問に対する言語一貫性報酬を組み合わせた新しい手法である。
地理に基づく多言語事実推論ベンチマークであるGeoFact-Xと5言語での推論トレースを紹介する。
以上の結果から,M2Aは数学的および事実的推論タスクにおいて,多言語推論の忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning [12.511775058257328]
推論において最もトークン効率のよい言語が英語かどうかを考察する。
非英語言語における推論はトークンの使用量を減少させるだけでなく、正確性も維持する。
改善の程度は、多言語強度のモデルに依存する。
論文 参考訳(メタデータ) (2025-06-30T20:29:52Z) - When Models Reason in Your Language: Controlling Thinking Language Comes at the Cost of Accuracy [16.897177356930104]
思考トレースを持つLarge Reasoning Models (LRMs) は、英語の推論タスクに強いパフォーマンスを示している。
なぜなら、ユーザーは自分の言語で表現された場合にのみ、その推論トレースが監視に有用であることを見つけることができるからだ。
我々は、XReasoningベンチマークでLRMの2つの主要なファミリーを評価し、最も先進的なモデルでさえしばしば英語に戻るか、他の言語で断片化された推論を生成することを発見した。
論文 参考訳(メタデータ) (2025-05-28T21:44:12Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。