論文の概要: Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration
- arxiv url: http://arxiv.org/abs/2603.22273v2
- Date: Fri, 27 Mar 2026 17:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.125244
- Title: Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration
- Title(参考訳): 探索と政策最適化の分離:ハード探索のための不確実性誘導木探索
- Authors: Zakaria Mhammedi, James Cohan,
- Abstract要約: 本稿では,探査段階におけるRLの活用と回避を明確に分離する新たなパラダイムを提案する。
政策最適化のオーバーヘッドを取り除くことにより,本手法は,ハードなAtariベンチマーク上での本質的なモチベーションベースラインよりも,桁違いに効率よく探索する。
得られた軌跡を既存の教師付き後方学習アルゴリズムを用いて,展開可能なポリシに抽出できることを実証した。
- 参考スコア(独自算出の注目度): 12.531650952835493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The process of discovery requires active exploration -- the act of collecting new and informative data. However, efficient autonomous exploration remains a major unsolved problem. The dominant paradigm addresses this challenge by using Reinforcement Learning (RL) to train agents with intrinsic motivation, maximizing a composite objective of extrinsic and intrinsic rewards. We suggest that this approach incurs unnecessary overhead: while policy optimization is necessary for precise task execution, employing such machinery solely to expand state coverage may be inefficient. In this paper, we propose a new paradigm that explicitly separates exploration from exploitation and bypasses RL during the exploration phase. Our method uses a tree-search strategy inspired by the Go-With-The-Winner algorithm, paired with a measure of epistemic uncertainty to systematically drive exploration. By removing the overhead of policy optimization, our approach explores an order of magnitude more efficiently than standard intrinsic motivation baselines on hard Atari benchmarks. Further, we demonstrate that the discovered trajectories can be distilled into deployable policies using existing supervised backward learning algorithms, achieving state-of-the-art scores by a wide margin on Montezuma's Revenge, Pitfall!, and Venture without relying on domain-specific knowledge. Finally, we demonstrate the generality of our framework in high-dimensional continuous action spaces by solving the MuJoCo Adroit dexterous manipulation and AntMaze tasks in a sparse-reward setting, directly from image observations and without expert demonstrations or offline datasets. To the best of our knowledge, this has not been achieved before for the Adroit tasks.
- Abstract(参考訳): 発見のプロセスには活発な探索が必要です -- 新しい情報収集の行為です。
しかし、効率的な自律探査は未解決の問題のままである。
支配的なパラダイムは、強化学習(Reinforcement Learning, RL)を使用して、本質的な動機を持つエージェントを訓練し、本質的な報酬と本質的な報酬の複合目的を最大化する。
我々は,この手法が不要なオーバーヘッドを引き起こすことを示唆する: 正確なタスク実行にはポリシーの最適化が必要であるが,状態カバレッジを拡大するためにのみそのような機械を用いることは,非効率である可能性がある。
本稿では,探査段階におけるRLの活用と回避を明確に分離する新たなパラダイムを提案する。
提案手法は,Go-With-The-Winnerアルゴリズムにインスパイアされた木探索戦略を用いて,探索を体系的に進めるために,疫学的不確実性の尺度と組み合わせた。
政策最適化のオーバーヘッドを取り除くことにより,本手法は,ハードなAtariベンチマーク上での本質的なモチベーションベースラインよりも,桁違いに効率よく探索する。
さらに,既存の教師付き後方学習アルゴリズムを用いて,モンテズマのRevenge,Pitfall!,Ventureにおいて,最先端のスコアを広いマージンで達成し,ドメイン固有の知識に頼らずに,これらのトラジェクトリを展開可能なポリシに抽出できることを実証した。
最後に,MuJoCo Adroit dexterous操作とAntMazeタスクを,画像観察から直接,専門家によるデモンストレーションやオフラインデータセットなしでスパース・リワード環境で解くことで,高次元連続行動空間における我々のフレームワークの汎用性を実証する。
私たちの知る限りでは、これはAdroitタスクではこれまで達成されていませんでした。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。