論文の概要: Off-policy Reinforcement Learning with Model-based Exploration Augmentation
- arxiv url: http://arxiv.org/abs/2510.25529v1
- Date: Wed, 29 Oct 2025 13:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.68561
- Title: Off-policy Reinforcement Learning with Model-based Exploration Augmentation
- Title(参考訳): モデルに基づく探索強化によるオフポリティクス強化学習
- Authors: Likun Wang, Xiangteng Zhang, Yinuo Wang, Guojian Zhan, Wenxuan Wang, Haoyu Gao, Jingliang Duan, Shengbo Eben Li,
- Abstract要約: 我々は,未探索臨界状態の生成を通じて探索を強化するモデル生成探索(MoGE)を提案する。
MoGEは,(1)政策探索における各州の潜在的影響を評価するユーティリティ関数の指導の下で臨界状態を合成する拡散型ジェネレータと,(2)エージェント学習の臨界状態に基づく臨界遷移を構築するための一段階の想像的世界モデルとから構成される。
提案手法では,非政治学習の原則に則ったモジュール型定式化を採用し,既存のアルゴリズムとのシームレスな統合により,コア構造を変更することなく探索を改善する。
- 参考スコア(独自算出の注目度): 29.61835214523957
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Exploration is fundamental to reinforcement learning (RL), as it determines how effectively an agent discovers and exploits the underlying structure of its environment to achieve optimal performance. Existing exploration methods generally fall into two categories: active exploration and passive exploration. The former introduces stochasticity into the policy but struggles in high-dimensional environments, while the latter adaptively prioritizes transitions in the replay buffer to enhance exploration, yet remains constrained by limited sample diversity. To address the limitation in passive exploration, we propose Modelic Generative Exploration (MoGE), which augments exploration through the generation of under-explored critical states and synthesis of dynamics-consistent experiences through transition models. MoGE is composed of two components: (1) a diffusion-based generator that synthesizes critical states under the guidance of a utility function evaluating each state's potential influence on policy exploration, and (2) a one-step imagination world model for constructing critical transitions based on the critical states for agent learning. Our method adopts a modular formulation that aligns with the principles of off-policy learning, allowing seamless integration with existing algorithms to improve exploration without altering their core structures. Empirical results on OpenAI Gym and DeepMind Control Suite reveal that MoGE effectively bridges exploration and policy learning, leading to remarkable gains in both sample efficiency and performance across complex control tasks.
- Abstract(参考訳): 探索は強化学習(RL)の基本であり、エージェントが環境の基盤構造をいかに効果的に発見し、活用し、最適な性能を達成するかを決定する。
既存の探査方法は通常、アクティブ探索とパッシブ探索の2つのカテゴリに分類される。
前者はポリシーに確率性を導入するが、高次元環境では苦労するが、後者は探索を強化するためにリプレイバッファの遷移を適応的に優先順位付けする。
受動的探索の限界に対処するため,過渡臨界状態の生成と遷移モデルによる動的一貫性のある経験の合成を通じて探索を強化するモデル生成探索(MoGE)を提案する。
MoGEは,(1)政策探索における各州の潜在的影響を評価するユーティリティ関数の指導の下で臨界状態を合成する拡散型ジェネレータと,(2)エージェント学習の臨界状態に基づく臨界遷移を構築するための一段階の想像的世界モデルとから構成される。
提案手法では,非政治学習の原則に則ったモジュール型定式化を採用し,既存のアルゴリズムとのシームレスな統合により,コア構造を変更することなく探索を改善する。
OpenAI GymとDeepMind Control Suiteの実証的な結果によると、MoGEは探索とポリシー学習を効果的に橋渡しし、複雑な制御タスクにおけるサンプル効率とパフォーマンスの両方において顕著に向上した。
関連論文リスト
- SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration [58.05143960563826]
On-Manifold Exploration (SOE)は、ロボット操作におけるポリシー探索と改善を強化するフレームワークである。
SOEはタスク関連因子のコンパクトな潜在表現を学習し、有効なアクションの多様体への制約探索を行う。
プラグインモジュールとして任意のポリシモデルとシームレスに統合することができ、基本ポリシのパフォーマンスを低下させることなく、探索を強化することができる。
論文 参考訳(メタデータ) (2025-09-23T17:54:47Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.78397717362797]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z) - Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning [0.0]
環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
論文 参考訳(メタデータ) (2023-10-12T13:45:33Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。