論文の概要: Learning When to Translate for Multilingual Reasoning
- arxiv url: http://arxiv.org/abs/2606.02465v1
- Date: Mon, 01 Jun 2026 16:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.50769
- Title: Learning When to Translate for Multilingual Reasoning
- Title(参考訳): 多言語推論のための翻訳の学習
- Authors: Deokhyung Kang, Hyounghun Kim, Gary Geunbae Lee,
- Abstract要約: 推論言語モデル (RLM) は複雑な推論タスクにおいて高い性能を発揮するが、それでもかなりの多言語推論のギャップがある。
英語翻訳は、RLMがより確実に解釈できる形で非英語入力を表現することによって、これらの失敗を軽減することができる。
本稿では,言語理解境界を意識した強化学習フレームワークLuarを提案する。
- 参考スコア(独自算出の注目度): 20.51941069559769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning language models (RLMs) achieve strong performance on complex reasoning tasks, but still exhibit substantial multilingual reasoning gaps, largely due to language-understanding failures in non-English inputs. English translation can mitigate these failures by expressing non-English inputs in a form that RLMs can more reliably interpret, yet translating every input is unnecessary when the model can reason reliably from the original query. To address this challenge, we propose Luar, a Language Understanding Boundary-aware Reinforcement Learning framework that trains RLMs to selectively invoke translation when direct understanding is unreliable. Luar trains the model to choose between solving the original input directly and reasoning over its English translation, encouraging translation only when translator-augmented reasoning is expected to substantially outperform direct reasoning. Across multilingual reasoning benchmarks, Luar outperforms standard GRPO and other training-based baselines, with particularly large gains on low-resource languages. Further analysis shows that Luar avoids unnecessary translation in cases where direct reasoning is sufficient, while extending its translator-call behavior to unseen low-resource languages. Together, our work suggests a selective approach to multilingual reasoning: RLMs can learn to invoke translation only when their direct understanding is unreliable. The project will be made publicly available at https://github.com/deokhk/LUAR
- Abstract(参考訳): RLM(Reasoning Language Model)は、複雑な推論タスクにおいて高いパフォーマンスを達成するが、英語以外の入力における言語理解の失敗により、多言語推論のギャップがかなり残っている。
英語翻訳は、RLMがより確実に解釈できる形で非英語入力を表現することでこれらの失敗を軽減することができるが、モデルが元のクエリから確実に推論できる場合、全ての入力を翻訳することは不要である。
この課題に対処するために,言語理解境界を意識した強化学習フレームワークであるLuarを提案する。
ルアーは、原文の入力を直接解いたり、英訳の推論を行ったりすることを選択できるようにモデルを訓練し、翻訳者拡張推論が直接推論を著しく上回ると予想される場合にのみ翻訳を奨励する。
マルチリンガル推論ベンチマーク全体において、LuarはGRPOやその他のトレーニングベースのベースラインよりも優れており、低リソース言語では特に大きな成功を収めている。
さらなる分析では、直接推論が十分である場合には不要な翻訳を避けつつ、トランスレータ呼び出しの振る舞いを未確認の低リソース言語に拡張している。
我々の研究は、多言語推論に対する選択的なアプローチを示唆している: RLMは、直接の理解が信頼できない場合にのみ、翻訳を呼び出すことを学べる。
プロジェクトはhttps://github.com/deokhk/LUARで公開される。
関連論文リスト
- Crosslingual On-Policy Self-Distillation for Multilingual Reasoning [48.68444770923683]
Crosslingual On-Policy Self-Distillation (COPSD)は、モデル自身の高リソース推論動作を低リソース言語に転送する。
17の低リソースアフリカ言語に対する実験では、COPSDはモデルサイズ全体の低リソース数学的推論を一貫して改善している。
論文 参考訳(メタデータ) (2026-05-10T14:06:09Z) - Align to the Pivot: Dual Alignment with Self-Feedback for Multilingual Math Reasoning [71.4175109189942]
Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR)を提案する。
このアプローチは、モデルの第一言語をピボット言語として指定する。
外部の正しい回答や報酬モデルに頼ることなく、言語横断的な自己フィードバック機構を確立する。
論文 参考訳(メタデータ) (2026-01-25T03:20:00Z) - Why Do Multilingual Reasoning Gaps Emerge in Reasoning Language Models? [18.99223776816893]
推論言語モデル(RLM)は複雑な推論タスクにおいて高いパフォーマンスを達成するが、それでも多言語推論のギャップに悩まされている。
本稿では多言語推論のギャップが言語理解の失敗に大きく起因していることを示す。
本稿では,多言語入力を英語に翻訳する簡易かつ効果的な手法である選択翻訳を提案する。
論文 参考訳(メタデータ) (2025-10-31T08:17:59Z) - Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7304930030649]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。
M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-08T17:55:02Z) - Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [39.03934159726098]
M2Aは,マルチスケール多言語アライメントと,機械翻訳された質問に対する言語一貫性報酬を組み合わせた新しい手法である。
地理に基づく多言語事実推論ベンチマークであるGeoFact-Xと5言語での推論トレースを紹介する。
以上の結果から,M2Aは数学的および事実的推論タスクにおいて,多言語推論の忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - Cross-lingual Collapse: How Language-Centric Foundation Models Shape Reasoning in Large Language Models [44.94287386776289]
textbfCross-lingual Collapseは、多言語言語モデルが支配的な事前学習言語に回帰する体系的なドリフトである。
実験の結果, (i)GRPOは事前学習言語の不均衡を急速に増幅し, わずか数百回の更新で低リソース言語が侵食され, (ii) 言語整合性報酬はこのドリフトを緩和するが, ほぼ5~10ppの精度の低下を犠牲にしていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T08:08:48Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Scaling Test-time Compute for Low-resource Languages: Multilingual Reasoning in LLMs [3.9530780161144667]
本稿では,大規模言語モデルが潜在空間で内部的に操作する多言語メカニズムについて検討する。
我々は、低リソース言語での入力を条件に、ターゲット言語で最終応答を出力しながら、英語でチェーン・オブ・ソート(CoT)を生成するモデルを訓練する。
我々の実験では、この手法は英語によるCoTトレーニングと呼ばれ、28.33%の改善で他のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-04-02T16:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。