論文の概要: The Reasoning Lingua Franca: A Double-Edged Sword for Multilingual AI
- arxiv url: http://arxiv.org/abs/2510.20647v1
- Date: Thu, 23 Oct 2025 15:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.239264
- Title: The Reasoning Lingua Franca: A Double-Edged Sword for Multilingual AI
- Title(参考訳): Reasoning Lingua Franca:多言語AIのためのダブルエッジソード
- Authors: Alan Saji, Raj Dabre, Anoop Kunchukuttan, Ratish Puduppully,
- Abstract要約: 大規模推論モデル(LRM)は、数学的、科学的、その他の質問応答タスクにおいて強い性能を発揮する。
英語以外の質問が提示されると、LRMは英語の推論をデフォルトとし、解釈可能性や言語的・文化的ニュアンスの扱いに関する懸念を提起する。
- 参考スコア(独自算出の注目度): 25.42472949919922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) achieve strong performance on mathematical, scientific, and other question-answering tasks, but their multilingual reasoning abilities remain underexplored. When presented with non-English questions, LRMs often default to reasoning in English, raising concerns about interpretability and the handling of linguistic and cultural nuances. We systematically compare an LRM's reasoning in English versus the language of the question. Our evaluation spans two tasks: MGSM and GPQA Diamond. Beyond measuring answer accuracy, we also analyze cognitive attributes in the reasoning traces. We find that English reasoning traces exhibit a substantially higher presence of these cognitive behaviors, and that reasoning in English generally yields higher final-answer accuracy, with the performance gap increasing as tasks become more complex. However, this English-centric strategy is susceptible to a key failure mode - getting "Lost in Translation," where translation steps lead to errors that would have been avoided by question's language reasoning.
- Abstract(参考訳): 大規模推論モデル(LRM)は、数学的、科学的、その他の質問応答タスクにおいて強力な性能を発揮するが、多言語推論能力はいまだ探索されていない。
英語以外の質問が提示されると、LRMは英語の推論をデフォルトとし、解釈可能性や言語的・文化的ニュアンスの扱いに関する懸念を提起する。
我々は、英語におけるLRMの推論と質問の言語を体系的に比較する。
評価はMGSMとGPQA Diamondの2つのタスクにまたがる。
回答の精度を計測するだけでなく、推論の軌跡の認知的属性も分析する。
英語の推論トレースは、これらの認知行動の存在感が著しく高く、英語の推論は一般に、タスクが複雑になるにつれて、パフォーマンスのギャップが増大し、最終回答の精度が向上することがわかった。
しかし、この英語中心の戦略は、重要な失敗モード("Lost in Translation")の影響を受けやすい。
関連論文リスト
- Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7304930030649]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。
M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-08T17:55:02Z) - MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。
MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。
文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文 参考訳(メタデータ) (2025-07-23T12:56:31Z) - When Models Reason in Your Language: Controlling Thinking Language Comes at the Cost of Accuracy [16.897177356930104]
思考トレースを持つLarge Reasoning Models (LRMs) は、英語の推論タスクに強いパフォーマンスを示している。
なぜなら、ユーザーは自分の言語で表現された場合にのみ、その推論トレースが監視に有用であることを見つけることができるからだ。
我々は、XReasoningベンチマークでLRMの2つの主要なファミリーを評価し、最も先進的なモデルでさえしばしば英語に戻るか、他の言語で断片化された推論を生成することを発見した。
論文 参考訳(メタデータ) (2025-05-28T21:44:12Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Could Thinking Multilingually Empower LLM Reasoning? [41.62726542483646]
タスク推論における多言語化の上限について検討する。
多言語推論は、英語のみの推論よりも、かなり(約10Acc@$k$ポイント)、頑健に(翻訳品質と言語選択のバリエーションに耐性がある)高い上限を約束する。
論文 参考訳(メタデータ) (2025-04-16T07:45:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。