論文の概要: ExpLang: Improved Exploration and Exploitation in LLM Reasoning with On-Policy Thinking Language Selection
- arxiv url: http://arxiv.org/abs/2602.21887v1
- Date: Wed, 25 Feb 2026 13:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.840602
- Title: ExpLang: Improved Exploration and Exploitation in LLM Reasoning with On-Policy Thinking Language Selection
- Title(参考訳): ExpLang: LLM推論における言語選択による探索と爆発の改善
- Authors: Changjiang Gao, Zixian Huang, Kaichen Yang, Jiajun Chen, Jixing Li, Shujian Huang,
- Abstract要約: 我々は,強化学習における探索と搾取を改善するために,オンライン思考言語選択を可能にする新しいポストトレーニングパイプラインExpLangを提案する。
提案手法は英語のみのトレーニングを同じトレーニング予算で継続的に上回りつつ,見知らぬ言語と目に見えない言語の両方に対して高い思考的言語コンプライアンスを示す。
- 参考スコア(独自算出の注目度): 39.813397419564936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current large reasoning models (LRMs) have shown strong ability on challenging tasks after reinforcement learning (RL) based post-training. However, previous work mainly focuses on English reasoning in expectation of the strongest performance, despite the demonstrated potential advantage of multilingual thinking, as well as the requirement for native thinking traces by global users. In this paper, we propose ExpLang, a novel LLM post-training pipeline that enables on-policy thinking language selection to improve exploration and exploitation during RL with the use of multiple languages. The results show that our method steadily outperforms English-only training with the same training budget, while showing high thinking language compliance for both seen and unseen languages. Analysis shows that, by enabling on-policy thinking language selection as an action during RL, ExpLang effectively extends the RL exploration space with diversified language preference and improves the RL exploitation outcome with leveraged non-English advantage. The method is orthogonal to most RL algorithms and opens up a new perspective on using multilinguality to improve LRMs.
- Abstract(参考訳): 現在の大推論モデル(LRM)は、強化学習(RL)に基づく後学習後の課題に対して強い能力を示している。
しかし,従来の研究は主に,多言語思考の潜在的優位性に加えて,グローバルユーザによるネイティブな思考トレースの要件にもかかわらず,最強のパフォーマンスを期待する英語の推論に重点を置いていた。
本稿では,複数の言語を用いてRL中における探索と搾取を改善するために,オンライン思考言語選択を可能にする新しいLLMポストトレーニングパイプラインであるExpLangを提案する。
その結果,本手法は英語のみのトレーニングを同一のトレーニング予算で継続的に上回りつつ,見知らぬ言語でも高い思考言語コンプライアンスを示すことがわかった。
分析の結果, オンライン思考言語選択をRL中の行動として有効にすることで, ExpLangは言語嗜好の多様化によってRL探索空間を効果的に拡張し, 活用されていない英語の優位性によってRLの搾取結果を改善することがわかった。
この手法は、ほとんどのRLアルゴリズムに直交するものであり、マルチリンガル性を用いてLRMを改善するための新しい視点を開く。
関連論文リスト
- Language-Coupled Reinforcement Learning for Multilingual Retrieval-Augmented Generation [73.54930910609328]
多言語検索強化学習フレームワークLcRLを提案する。
LcRLは言語に結合したグループ相対ポリシー最適化をポリシーと報酬モデルに統合する。
我々は,言語結合型グループサンプリングをロールアウトモジュールに導入し,知識バイアスを低減し,報酬モデルにおける補助的反一貫性のペナルティを正規化し,知識衝突を軽減する。
論文 参考訳(メタデータ) (2026-01-21T11:32:32Z) - Unlocking Multilingual Reasoning Capability of LLMs and LVLMs through Representation Engineering [44.596434537567916]
MRRE(Representation Engineering)を用いた多言語推論機能向上のためのトレーニング不要推論時間法を提案する。
MRREは、低リソース言語(タイ語とスワヒリ語)で平均5.48%、7.54%の上昇により、英語以外の推論を継続的に強化する。
論文 参考訳(メタデータ) (2025-11-28T14:40:27Z) - Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective [52.452449102961225]
本研究は、推論一般化を探求する新たな言語横断的視点を提案する。
本研究により,言語間の伝達性は,初期モデル,対象言語,訓練パラダイムによって大きく異なることが明らかとなった。
我々の研究は、LRM推論が人間の認知を反映し、言語に依存しないLRMの開発に重要な洞察を与えるという仮定に挑戦する。
論文 参考訳(メタデータ) (2025-10-02T17:49:49Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Scaling Test-time Compute for Low-resource Languages: Multilingual Reasoning in LLMs [3.9530780161144667]
本稿では,大規模言語モデルが潜在空間で内部的に操作する多言語メカニズムについて検討する。
我々は、低リソース言語での入力を条件に、ターゲット言語で最終応答を出力しながら、英語でチェーン・オブ・ソート(CoT)を生成するモデルを訓練する。
我々の実験では、この手法は英語によるCoTトレーニングと呼ばれ、28.33%の改善で他のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-04-02T16:58:36Z) - AdaMCoT: Rethinking Cross-Lingual Factual Reasoning through Adaptive Multilingual Chain-of-Thought [40.16140566668239]
AdaMCOTは多言語の事実推論を強化するフレームワークである。
AdaMCOTは、ターゲット言語応答を生成する前に、中間言語における思考プロセスを動的にルーティングする。
本評価は, 事実推論品質と言語間整合性の両方において, 大幅な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-27T15:48:57Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。