論文の概要: LANG: Reinforcement Learning for Multilingual Reasoning with Language-Adaptive Hint Guidance
- arxiv url: http://arxiv.org/abs/2605.22567v1
- Date: Thu, 21 May 2026 14:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.587882
- Title: LANG: Reinforcement Learning for Multilingual Reasoning with Language-Adaptive Hint Guidance
- Title(参考訳): LANG: 言語適応型ヒントガイダンスを用いた多言語推論のための強化学習
- Authors: Yuchun Fan, Bei Li, Peiguang Li, Yilin Wang, Yongyu Mu, Jian Yang, Xin Chen, Rongxiang Weng, Jingang Wang, Xunliang Cai, Jingbo Zhu, Tong Xiao,
- Abstract要約: 強化学習は大規模言語モデルにおける多段階推論の強化に有効であることが証明されている。
しかし、その利点は多言語文脈に完全には翻訳されていない。
我々は、言語条件付きヒントを利用して、英語以外の推論タスクの探索をガイドする新しいフレームワークを開発する。
- 参考スコア(独自算出の注目度): 77.58408743830314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has proven effective for enhancing multi-step reasoning in large language models (LLMs), yet its benefits have not fully translated to multilingual contexts. Existing methods struggle with a fundamental trade-off: prioritizing input-language consistency severely hampers reasoning quality, while prioritizing reasoning often leads to unintended language drift toward English. We address this challenge with LANG, a novel framework that leverages language-conditioned hints to guide exploration in non-English reasoning tasks. Our method incorporates two key mechanisms to prevent dependency on these hints: a progressive decay schedule that gradually withdraws scaffolding, and a language-adaptive switch that tailors learning horizons to specific language difficulties. Empirical results on challenging multilingual mathematical benchmarks reveal that LANG substantially enhances reasoning performance without compromising language consistency. Moreover, we show that our framework generalizes beyond mathematics, fostering more consistent language alignment across model layers
- Abstract(参考訳): 強化学習は大規模言語モデル(LLM)における多段階推論の強化に有効であることが証明されているが、その利点は多言語文脈に完全に翻訳されていない。
入力言語の一貫性の優先順位付けは、品質の理由付けを厳しく妨げる一方で、推論の優先順位付けは、意図しない言語が英語に向かって漂うことにつながる。
言語条件付きヒントを利用して、英語以外の推論タスクの探索をガイドする新しいフレームワークであるLANGで、この問題に対処する。
提案手法では,これらのヒントに依存しないための2つの重要なメカニズムが組み込まれており,段階的に足場を離脱する進行的減衰スケジュールと,特定の言語難易度を学習する言語適応スイッチが組み込まれている。
多言語数学ベンチマークの試行の結果から,LANGは言語の一貫性を損なうことなく推論性能を大幅に向上することがわかった。
さらに、我々のフレームワークは数学を超えて一般化し、モデル層間のより一貫性のある言語アライメントを促進することを示す。
関連論文リスト
- TAPO: Translation Augmented Policy Optimization for Multilingual Mathematical Reasoning [41.884158267107615]
大規模言語モデル (LLM) は、英語の数学的推論において顕著な習熟性を示している。
言語理解の欠如に起因して、多言語的文脈において重要なパフォーマンス格差が持続する。
本稿では,GRPO上に構築された新しい強化学習フレームワークであるTranslation-Augmented Policy Optimization (TAPO)を紹介する。
論文 参考訳(メタデータ) (2026-03-26T13:13:33Z) - Align to the Pivot: Dual Alignment with Self-Feedback for Multilingual Math Reasoning [71.4175109189942]
Pivot-Aligned Self-Feedback Multilingual Reasoning (PASMR)を提案する。
このアプローチは、モデルの第一言語をピボット言語として指定する。
外部の正しい回答や報酬モデルに頼ることなく、言語横断的な自己フィードバック機構を確立する。
論文 参考訳(メタデータ) (2026-01-25T03:20:00Z) - Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7304930030649]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。
M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-08T17:55:02Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought [40.16140566668239]
AdaMCOTは多言語の事実推論を強化するフレームワークである。
AdaMCOTは、ターゲット言語応答を生成する前に、中間言語における思考プロセスを動的にルーティングする。
本評価は, 事実推論品質と言語間整合性の両方において, 大幅な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-27T15:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。