論文の概要: Outcome-based Exploration for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2509.06941v1
- Date: Mon, 08 Sep 2025 17:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.300358
- Title: Outcome-based Exploration for LLM Reasoning
- Title(参考訳): LLM推論のためのアウトカムベース探索
- Authors: Yuda Song, Julia Kempe, Remi Munos,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を向上させる強力な手法として登場した。
ベースモデルに対するトレーニングセットにおいても,RLは効果的な多様性を低下させることができることを示す。
最終結果に応じて探索ボーナスを割り当てる結果に基づく探索を提案する。
- 参考スコア(独自算出の注目度): 18.33816564983908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a powerful method for improving the reasoning abilities of large language models (LLMs). Outcome-based RL, which rewards policies solely for the correctness of the final answer, yields substantial accuracy gains but also induces a systematic loss in generation diversity. This collapse undermines real-world performance, where diversity is critical for test-time scaling. We analyze this phenomenon by viewing RL post-training as a sampling process and show that, strikingly, RL can reduce effective diversity even on the training set relative to the base model. Our study highlights two central findings: (i) a transfer of diversity degradation, where reduced diversity on solved problems propagates to unsolved ones, and (ii) the tractability of the outcome space, since reasoning tasks admit only a limited set of distinct answers. Motivated by these insights, we propose outcome-based exploration, which assigns exploration bonuses according to final outcomes. We introduce two complementary algorithms: historical exploration, which encourages rarely observed answers via UCB-style bonuses, and batch exploration, which penalizes within-batch repetition to promote test-time diversity. Experiments on standard competition math with Llama and Qwen models demonstrate that both methods improve accuracy while mitigating diversity collapse. On the theoretical side, we formalize the benefit of outcome-based exploration through a new model of outcome-based bandits. Together, these contributions chart a practical path toward RL methods that enhance reasoning without sacrificing the diversity essential for scalable deployment.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)の推論能力を向上させる強力な手法として登場した。
最終回答の正しさのみに報酬を与えるアウトカムベースのRLは、かなりの精度のゲインを得るが、生成多様性の体系的な損失も引き起こす。
この崩壊は、テスト時間のスケーリングに多様性が不可欠である現実世界のパフォーマンスを損なう。
我々は,RLポストトレーニングをサンプリングプロセスとして見ることにより,この現象を解析し,RLがベースモデルに対するトレーニングセットにおいても効果的に多様性を低下させることができることを示す。
我々の研究は2つの中心的な発見を強調している。
一 未解決問題に対する多様性の低下が未解決問題に伝播する多様性の低下
(ii) 結果空間のトラクタビリティ(トラクタビリティ)は、推論タスクが限定的な解しか持たないためである。
これらの知見に触発され、最終結果に応じて探索ボーナスを割り当てる結果に基づく探索を提案する。
本稿では,UCBスタイルのボーナスによる稀な回答を奨励する履歴探索と,テストタイムの多様性を促進するためにバッチ内での繰り返しを罰するバッチ探索という2つの補完的アルゴリズムを紹介する。
Llama と Qwen モデルによる標準的な競合数学の実験は、両方の手法が多様性の崩壊を緩和しながら精度を向上させることを示した。
理論的には,結果に基づく包帯の新しいモデルにより,結果に基づく探索の利点を定式化する。
これらのコントリビューションは、スケーラブルなデプロイメントに必要な多様性を犠牲にすることなく、推論を強化するRLメソッドへの実践的なパスをグラフ化します。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Diversity-Aware Policy Optimization for Large Language Model Reasoning [30.460540027658173]
大規模言語モデルに対するRLに基づく学習における多様性の影響について検討する。
多様性を考慮したポリシー最適化手法を提案する。
本手法は4つの数学的推論ベンチマークで平均3.5パーセントの改善を実現している。
論文 参考訳(メタデータ) (2025-05-29T13:27:44Z) - Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [33.807927649100805]
大規模言語モデル(LLM)の推論能力向上のための重要な手法として強化学習(RL)が登場した。
RLアプローチは、スパース結果に基づく報酬への依存と、探索のインセンティブを高めるための不十分なメカニズムにより、重要な制限に直面している。
固有モチベーション guidEd ExploratioN meThOd foR LLM Reasoning (i-MENTOR) を提案する。
i-MENTORは、トークンレベルの戦略におけるバイアスを軽減する軌道対応探索報酬、大きなアクション空間における探索と利用を安定化するための動的報酬スケーリング、そして、維持する有利な報酬実装の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z) - LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization [30.95342819013663]
大規模言語モデル(LLM)は、推論において印象的な能力を示している。
近年の研究では、検索結果教師付き強化学習(RL)アプローチを通じて、推論能力を検索強化世代(RAG)領域に統合することに焦点を当てている。
我々は、段階的なプロセス報酬と結果に基づく報酬をRAGのための現在のRL手法にハイブリダイズする新しいフレームワークであるLearning to Think-and-Search(LeTS)を提案する。
論文 参考訳(メタデータ) (2025-05-23T04:04:05Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - BADDr: Bayes-Adaptive Deep Dropout RL for POMDPs [22.78390558602203]
BRLの表現非依存な定式化を部分的に観測可能とし,従来のモデルを1つの理論的傘の下で統一する。
また,新しい導出手法であるBayes-Adaptive Deep Dropout rl (BADDr)を提案する。
論文 参考訳(メタデータ) (2022-02-17T19:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。