論文の概要: EEPO: Exploration-Enhanced Policy Optimization via Sample-Then-Forget
- arxiv url: http://arxiv.org/abs/2510.05837v1
- Date: Tue, 07 Oct 2025 12:02:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.236775
- Title: EEPO: Exploration-Enhanced Policy Optimization via Sample-Then-Forget
- Title(参考訳): EEPO: サンプルThen-fortによる探索強化ポリシ最適化
- Authors: Liang Chen, Xueting Han, Qizhou Wang, Bo Han, Jing Bai, Hinrich Schutze, Kam-Fai Wong,
- Abstract要約: Exploration-Enhanced Policy Optimization (EEPO)は、適応的アンラーニングを伴う2段階のロールアウトによる探索を促進するフレームワークである。
EEPOは5つの推論ベンチマークでGRPOを上回っ、Qwen2.5-3Bで24.3%、Llama3.2-3B-Instructで33.0%、Qwen3-8B-Baseで10.4%という平均的な相対的な上昇を達成した。
- 参考スコア(独自算出の注目度): 48.98166525828929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing exploration and exploitation remains a central challenge in reinforcement learning with verifiable rewards (RLVR) for large language models (LLMs). Current RLVR methods often overemphasize exploitation, leading to entropy collapse, diminished exploratory capacity, and ultimately limited performance gains. Although techniques that increase policy stochasticity can promote exploration, they frequently fail to escape dominant behavioral modes. This creates a self-reinforcing loop-repeatedly sampling and rewarding dominant modes-that further erodes exploration. We introduce Exploration-Enhanced Policy Optimization (EEPO), a framework that promotes exploration via two-stage rollouts with adaptive unlearning. In the first stage, the model generates half of the trajectories; it then undergoes a lightweight unlearning step to temporarily suppress these sampled responses, forcing the second stage to explore different regions of the output space. This sample-then-forget mechanism disrupts the self-reinforcing loop and promotes wider exploration during rollouts. Across five reasoning benchmarks, EEPO outperforms GRPO, achieving average relative gains of 24.3% on Qwen2.5-3B, 33.0% on Llama3.2-3B-Instruct, and 10.4% on Qwen3-8B-Base.
- Abstract(参考訳): 大規模言語モデル(LLM)に対する検証可能な報酬(RLVR)を用いた強化学習において、探索と搾取のバランスは依然として中心的な課題である。
現在のRLVR法は、しばしばエクスプロイトを過度に強調し、エントロピー崩壊、探索能力の低下、究極的にはパフォーマンスの向上が制限される。
政策確率性を高める技術は探索を促進するが、しばしば支配的な行動モードから逃れることができない。
これは自己強化ループを繰り返しサンプリングし、支配的なモードに報いる。
適応的アンラーニングを伴う2段階のロールアウトによる探索を促進するフレームワークである,探索強化政策最適化(EEPO)を紹介する。
第1段階では、モデルは軌道の半分を生成し、その後、これらのサンプル応答を一時的に抑制するために、軽量な未学習ステップを実行し、第2段階は出力空間の異なる領域を探索せざるを得ない。
このサンプルターゲット機構は自己強化ループを妨害し、ロールアウト時の広い探索を促進する。
EEPOは5つの推論ベンチマークでGRPOを上回っ、Qwen2.5-3Bで24.3%、Llama3.2-3B-Instructで33.0%、Qwen3-8B-Baseで10.4%という平均的な相対的な上昇を達成した。
関連論文リスト
- VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration [58.05143960563826]
On-Manifold Exploration (SOE)は、ロボット操作におけるポリシー探索と改善を強化するフレームワークである。
SOEはタスク関連因子のコンパクトな潜在表現を学習し、有効なアクションの多様体への制約探索を行う。
プラグインモジュールとして任意のポリシモデルとシームレスに統合することができ、基本ポリシのパフォーマンスを低下させることなく、探索を強化することができる。
論文 参考訳(メタデータ) (2025-09-23T17:54:47Z) - REX-RAG: Reasoning Exploration with Policy Correction in Retrieval-Augmented Generation [35.0649927279081]
強化学習(RL)は、大規模言語モデル(LLM)が複雑な推論タスクを実行できるための強力なパラダイムとして浮上している。
本稿では、厳格な政策学習を維持しつつ、代替推論経路を探求するフレームワークであるREX-RAGを提案する。
その結果,REX-RAG は Qwen2.5-3B では5.1%, Qwen2.5-7B では3.6% であることがわかった。
論文 参考訳(メタデータ) (2025-08-11T16:25:25Z) - Reasoning with Exploration: An Entropy Perspective on Reinforcement Learning for LLMs [112.40801692473723]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [39.460202867967006]
そこで,本研究では,高密度報酬を付与し,RLに基づくパラダイムにおける探索を増幅するために,固有モチベーションギルド探索比N meThOd foR LLM推論(i-MENTOR)を提案する。
4つの公開データセットにわたる実験は、i-MENTORの有効性を示し、AIME 2024で22.23%改善した。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。