論文の概要: Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective
- arxiv url: http://arxiv.org/abs/2509.22613v1
- Date: Fri, 26 Sep 2025 17:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.617779
- Title: Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective
- Title(参考訳): 言語モデル計画における強化学習のメリットと落とし穴:理論的視点
- Authors: Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen,
- Abstract要約: 強化学習(RL)法は大規模言語モデル(LLM)の計画能力を大幅に向上させた
本研究では,RLの利点と制約をグラフに基づく抽出により検討する。
我々の理論的分析から, 教師付き微調整(SFT)は共起性に基づく突発性解を導入しうるが, RLは探索によって正しい計画を立てる。
- 参考スコア(独自算出の注目度): 52.38531288378491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reinforcement learning (RL) methods have substantially enhanced the planning capabilities of Large Language Models (LLMs), yet the theoretical basis for their effectiveness remains elusive. In this work, we investigate RL's benefits and limitations through a tractable graph-based abstraction, focusing on policy gradient (PG) and Q-learning methods. Our theoretical analyses reveal that supervised fine-tuning (SFT) may introduce co-occurrence-based spurious solutions, whereas RL achieves correct planning primarily through exploration, underscoring exploration's role in enabling better generalization. However, we also show that PG suffers from diversity collapse, where output diversity decreases during training and persists even after perfect accuracy is attained. By contrast, Q-learning provides two key advantages: off-policy learning and diversity preservation at convergence. We further demonstrate that careful reward design is necessary to prevent reward hacking in Q-learning. Finally, applying our framework to the real-world planning benchmark Blocksworld, we confirm that these behaviors manifest in practice.
- Abstract(参考訳): 近年の強化学習(RL)手法は,Large Language Models (LLMs) の計画能力を大幅に向上させたが,その効果の理論的基礎は解明されていない。
本研究では,RLのメリットと制約をグラフベース抽象化を用いて検討し,政策勾配(PG)とQ-ラーニング手法に着目した。
我々の理論的分析では、教師付き微調整(SFT)は共起性に基づく急激な解を導入しうるのに対し、RLは探索を通じて正しい計画を実現し、よりよい一般化を実現するための探索の役割を強調している。
しかし、PGはトレーニング中に出力の多様性が低下し、完全精度が達成された後も持続する、多様性の崩壊に悩まされていることも示している。
対照的に、Q-ラーニングは、非政治的な学習と収束時の多様性の保存という2つの大きな利点を提供する。
さらに、Qラーニングにおける報酬ハックを防止するためには、注意深い報酬設計が必要であることを実証する。
最後に、我々のフレームワークを実際の計画ベンチマークBlocksworldに適用し、これらの挙動が実際に現れることを確認します。
関連論文リスト
- Outcome-based Exploration for LLM Reasoning [18.33816564983908]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を向上させる強力な手法として登場した。
ベースモデルに対するトレーニングセットにおいても,RLは効果的な多様性を低下させることができることを示す。
最終結果に応じて探索ボーナスを割り当てる結果に基づく探索を提案する。
論文 参考訳(メタデータ) (2025-09-08T17:52:56Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Advances in Preference-based Reinforcement Learning: A Review [1.474723404975345]
嗜好に基づく強化学習(PbRL)は、人間の嗜好を数値的な報酬ではなく専門家からのフィードバックとして利用する。
我々はPbRLのスケーラビリティと効率を向上させる新しいアプローチを含む統一されたPbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:57:12Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。