論文の概要: Why Do Multilingual Reasoning Gaps Emerge in Reasoning Language Models?
- arxiv url: http://arxiv.org/abs/2510.27269v1
- Date: Fri, 31 Oct 2025 08:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.03622
- Title: Why Do Multilingual Reasoning Gaps Emerge in Reasoning Language Models?
- Title(参考訳): マルチリンガル推論はなぜ言語モデルに現れるのか?
- Authors: Deokhyung Kang, Seonjeong Hwang, Daehui Kim, Hyounghun Kim, Gary Geunbae Lee,
- Abstract要約: 推論言語モデル(RLM)は複雑な推論タスクにおいて高いパフォーマンスを達成するが、それでも多言語推論のギャップに悩まされている。
本稿では多言語推論のギャップが言語理解の失敗に大きく起因していることを示す。
本稿では,多言語入力を英語に翻訳する簡易かつ効果的な手法である選択翻訳を提案する。
- 参考スコア(独自算出の注目度): 18.99223776816893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning language models (RLMs) achieve strong performance on complex reasoning tasks, yet they still suffer from a multilingual reasoning gap, performing better in high-resource languages than in low-resource ones. While recent efforts have reduced this gap, its underlying causes remain largely unexplored. In this paper, we address this by showing that the multilingual reasoning gap largely stems from failures in language understanding-the model's inability to represent the multilingual input meaning into the dominant language (i.e., English) within its reasoning trace. This motivates us to examine whether understanding failures can be detected, as this ability could help mitigate the multilingual reasoning gap. To this end, we evaluate a range of detection methods and find that understanding failures can indeed be identified, with supervised approaches performing best. Building on this, we propose Selective Translation, a simple yet effective strategy that translates the multilingual input into English only when an understanding failure is detected. Experimental results show that Selective Translation bridges the multilingual reasoning gap, achieving near full-translation performance while using translation for only about 20% of inputs. Together, our work demonstrates that understanding failures are the primary cause of the multilingual reasoning gap and can be detected and selectively mitigated, providing key insight into its origin and a promising path toward more equitable multilingual reasoning. Our code and data are publicly available at https://github.com/deokhk/RLM_analysis.
- Abstract(参考訳): 推論言語モデル(RLM)は複雑な推論タスクにおいて高いパフォーマンスを達成するが、多言語推論のギャップに悩まされ、低リソース言語よりも高リソース言語の方がパフォーマンスがよい。
近年の努力によりこのギャップは減ったが、その根本原因は未解明のままである。
本稿では、多言語推論のギャップが言語理解の失敗に大きく起因していることを示し、その推論トレース内の支配的言語(すなわち、英語)への多言語入力の意味を表現できないことを明らかにする。
この能力は多言語推論のギャップを緩和するのに役立つので、障害の理解が検出できるかどうかを調べるためのモチベーションとなります。
この目的のために、我々は様々な検出方法を評価し、障害を理解することは実際に可能であり、教師付きアプローチが最善であることを示す。
これに基づいて,多言語入力を英語に翻訳する簡易かつ効果的な戦略である選択翻訳を提案する。
実験結果から,Selective Translationは多言語間の推論ギャップを橋渡しし,約20%の入力で全翻訳性能を達成できることがわかった。
本研究は,多言語推論ギャップの主な原因は障害の理解であり,その起源と,より公平な多言語推論への有望な道筋を,検出および選択的に緩和できることを実証するものである。
私たちのコードとデータはhttps://github.com/deokhk/RLM_analysis.comで公開されています。
関連論文リスト
- Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [39.03934159726098]
M2Aは,マルチスケール多言語アライメントと,機械翻訳された質問に対する言語一貫性報酬を組み合わせた新しい手法である。
地理に基づく多言語事実推論ベンチマークであるGeoFact-Xと5言語での推論トレースを紹介する。
以上の結果から,M2Aは数学的および事実的推論タスクにおいて,多言語推論の忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - The Translation Barrier Hypothesis: Multilingual Generation with Large Language Models Suffers from Implicit Translation Failure [47.37347291981968]
課題解決に成功しているにもかかわらず、翻訳段階の失敗は最終結果の低品質化にとって重要な要因であることを示す。
108言語対にわたる単語翻訳タスクにおいて,いずれの段階も最終失敗の原因となる範囲を定量化する。
論文 参考訳(メタデータ) (2025-06-28T02:09:21Z) - Cross-lingual Collapse: How Language-Centric Foundation Models Shape Reasoning in Large Language Models [44.94287386776289]
textbfCross-lingual Collapseは、多言語言語モデルが支配的な事前学習言語に回帰する体系的なドリフトである。
実験の結果, (i)GRPOは事前学習言語の不均衡を急速に増幅し, わずか数百回の更新で低リソース言語が侵食され, (ii) 言語整合性報酬はこのドリフトを緩和するが, ほぼ5~10ppの精度の低下を犠牲にしていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T08:08:48Z) - MMATH: A Multilingual Benchmark for Mathematical Reasoning [94.05289799605957]
MMATHは10言語にまたがる374の高品質な数学問題にまたがる多言語複雑推論のためのベンチマークである。
我々は、DeepSeek R1のような先進モデルでさえ、言語間での大幅な性能格差を示し、意図しない言語において重要な目標外問題発生応答に悩まされていることを観察する。
本研究は,大規模言語モデルの多言語推論能力向上のための新たな洞察と実践的戦略を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:47:39Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Could Thinking Multilingually Empower LLM Reasoning? [41.62726542483646]
タスク推論における多言語化の上限について検討する。
多言語推論は、英語のみの推論よりも、かなり(約10Acc@$k$ポイント)、頑健に(翻訳品質と言語選択のバリエーションに耐性がある)高い上限を約束する。
論文 参考訳(メタデータ) (2025-04-16T07:45:10Z) - Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models [49.16690802656554]
複数の言語で意味論的に等価なプロンプトに対して一貫した応答を提供するのに、多言語の事実モデルでは苦労していることがわかった。
最終層での計算をバイパスし,予測精度と言語間の整合性を向上する線形ショートカット手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T19:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。