論文の概要: Targeted Exploration via Unified Entropy Control for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.14646v1
- Date: Thu, 16 Apr 2026 05:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.746467
- Title: Targeted Exploration via Unified Entropy Control for Reinforcement Learning
- Title(参考訳): 強化学習のための統一エントロピー制御による目標探索
- Authors: Chen Wang, Lai Wei, Yanzhi Zhang, Chenyang Shao, Zedong Dan, Weiran Huang, Ge Lan, Yue Wang,
- Abstract要約: 本研究では,探索と安定化を目的としたフレームワークである統一エントロピー・コントロール・フォー・強化学習(UEC-RL)を提案する。
UEC-RLは、潜在的な価値ある推論軌道を探索する難しいプロンプトの探索を活発化させる。
並行して、安定器はエントロピーが制御不能に成長するのを防止し、モデルが信頼性のある挙動を集約するにつれてトレーニングを安定させる。
- 参考スコア(独自算出の注目度): 9.478028848430572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reinforcement learning (RL) have improved the reasoning capabilities of large language models (LLMs) and vision-language models (VLMs). However, the widely used Group Relative Policy Optimization (GRPO) consistently suffers from entropy collapse, causing the policy to converge prematurely and lose diversity. Existing exploration methods introduce additional bias or variance during exploration, making it difficult to maintain optimization stability. We propose Unified Entropy Control for Reinforcement Learning (UEC-RL), a framework that provides targeted mechanisms for exploration and stabilization. UEC-RL activates more exploration on difficult prompts to search for potential and valuable reasoning trajectories. In parallel, a stabilizer prevents entropy from growing uncontrollably, thereby keeping training stable as the model consolidates reliable behaviors. Together, these components expand the search space when needed while maintaining robust optimization throughout training. Experiments on both LLM and VLM reasoning tasks show consistent gains over RL baselines on both Pass@1 and Pass@$k$. On Geometry3K, UEC-RL achieves a 37.9\% relative improvement over GRPO, indicating that it sustains effective exploration without compromising convergence and underscoring UEC-RL as a key for scaling RL-based reasoning in large models. Our code is available at https://github.com/597358816/UEC-RL.
- Abstract(参考訳): 近年の強化学習(RL)は,大規模言語モデル(LLM)と視覚言語モデル(VLM)の推論能力を改善している。
しかし、広く使われているグループ相対政策最適化(GRPO)はエントロピーの崩壊に常に悩まされ、政策は早期に収束し多様性を失う。
既存の探査手法では、探索中にバイアスや分散が生じ、最適化安定性の維持が困難になる。
本研究では,探索と安定化を目的としたフレームワークである統一エントロピー・コントロール・フォー・強化学習(UEC-RL)を提案する。
UEC-RLは、潜在的な価値ある推論軌道を探索する難しいプロンプトの探索を活発化させる。
並行して、安定器はエントロピーが制御不能に成長するのを防止し、モデルが信頼性のある挙動を集約するにつれてトレーニングを安定させる。
これらのコンポーネントは、トレーニングを通じて堅牢な最適化を維持しながら、必要に応じて検索スペースを拡大する。
LLMおよびVLM推論タスクの実験は、Pass@1とPass@$k$の両方でRLベースラインよりも一貫した利得を示している。
Geometry3Kでは、UEC-RLはGRPOよりも37.9倍の相対的な改善を達成し、収束を損なうことなく効率的な探索を継続し、大きなモデルでのRLベースの推論をスケールする鍵としてUEC-RLをアンダースコーリングすることを示した。
私たちのコードはhttps://github.com/597358816/UEC-RL.comで公開されています。
関連論文リスト
- Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning [26.103428215400697]
低ランク適応 (LoRA) の簡単なシーケンスファインチューニング (Seq. FT) は極めて強い。
VLAモデルを用いた連続RL法としてシーケンスファインタニング(Sequential Fine-Tuning)を応用した。
論文 参考訳(メタデータ) (2026-03-12T08:22:39Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - The Road Less Traveled: Enhancing Exploration in LLMs via Sequential Sampling [39.65138471548881]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に重要である。
提案するSESA(Sequential SAmpling framework)は,多種多様なソリューションスケッチを逐次生成し,それらを完全な推論経路に拡張する。
合成課題における実験により, 逐次サンプリングは経路の多様性や崩壊からの回復の観点から, 従来のRL法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-17T10:15:11Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。