論文の概要: Dynamic Subgoal-based Exploration via Bayesian Optimization
- arxiv url: http://arxiv.org/abs/1910.09143v5
- Date: Thu, 12 Oct 2023 17:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 04:51:44.779882
- Title: Dynamic Subgoal-based Exploration via Bayesian Optimization
- Title(参考訳): ベイジアン最適化による動的サブゴアルベース探査
- Authors: Yijia Wang, Matthias Poloczek, Daniel R. Jiang
- Abstract要約: スパース・リワードナビゲーション環境における強化学習は困難であり、効果的な探索の必要性を生じさせる。
本稿では,動的サブゴールに基づく探索手法のクラスを効率的に探索する,費用対効果を考慮したベイズ最適化手法を提案する。
実験により、新しいアプローチは、多くの問題領域で既存のベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 7.297146495243708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning in sparse-reward navigation environments with
expensive and limited interactions is challenging and poses a need for
effective exploration. Motivated by complex navigation tasks that require
real-world training (when cheap simulators are not available), we consider an
agent that faces an unknown distribution of environments and must decide on an
exploration strategy. It may leverage a series of training environments to
improve its policy before it is evaluated in a test environment drawn from the
same environment distribution. Most existing approaches focus on fixed
exploration strategies, while the few that view exploration as a
meta-optimization problem tend to ignore the need for cost-efficient
exploration. We propose a cost-aware Bayesian optimization approach that
efficiently searches over a class of dynamic subgoal-based exploration
strategies. The algorithm adjusts a variety of levers -- the locations of the
subgoals, the length of each episode, and the number of replications per trial
-- in order to overcome the challenges of sparse rewards, expensive
interactions, and noise. An experimental evaluation demonstrates that the new
approach outperforms existing baselines across a number of problem domains. We
also provide a theoretical foundation and prove that the method asymptotically
identifies a near-optimal subgoal design.
- Abstract(参考訳): 高価で限られた相互作用を持つ疎遠なナビゲーション環境における強化学習は困難であり、効果的な探索が必要である。
実世界の訓練を必要とする複雑なナビゲーションタスク(安価なシミュレータが利用できない場合)を動機として,未知の環境分布に直面して探索戦略を決定するエージェントを検討する。
同じ環境分布から引き出されたテスト環境で評価される前に、一連のトレーニング環境を活用してポリシーを改善することができる。
既存のアプローチの多くは固定的な探索戦略に焦点を当てているが、メタ最適化問題としての探索はコスト効率の高い探索の必要性を無視する傾向がある。
本稿では,動的サブゴールに基づく探索戦略のクラスを効率的に探索する,コスト対応ベイズ最適化手法を提案する。
このアルゴリズムは、スパース報酬、高価な相互作用、ノイズといった課題を克服するために、様々なレバー(サブゴールの位置、各エピソードの長さ、トライアル毎のレプリケーション数)を調整する。
実験的評価は、新しいアプローチが既存のベースラインよりも多くの問題領域で優れていることを示している。
また,提案手法が漸近的に最適に近いサブゴール設計を識別することを示す理論的基盤も提供する。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - OTO Planner: An Efficient Only Travelling Once Exploration Planner for Complex and Unknown Environments [6.128246045267511]
オンリートラベル・ワン・プランナー」は複雑な環境下で繰り返し経路を減少させる効率的な探索プランナーである。
高速フロンティア更新、視点評価、視点改善が含まれる。
探査時間と移動距離を10%から20%削減し、フロンティア検出の速度を6~9倍向上させる。
論文 参考訳(メタデータ) (2024-06-11T14:23:48Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Sparse Reward Exploration via Novelty Search and Emitters [55.41644538483948]
本稿では,SparsE Reward Exploration via Novelty and Emitters (SERENE)アルゴリズムを提案する。
SERENEは、探索空間の探索と報酬の搾取を2つの交互プロセスに分けている。
メタスケジューラは、2つのプロセス間の交互にグローバルな計算予算を割り当てる。
論文 参考訳(メタデータ) (2021-02-05T12:34:54Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z) - Exploration by Maximizing R\'enyi Entropy for Reward-Free RL Framework [28.430845498323745]
我々は、搾取から探索を分離する報酬のない強化学習フレームワークを検討する。
探索段階において、エージェントは、報酬のない環境と相互作用して探索ポリシーを学習する。
計画段階では、エージェントはデータセットに基づいて報酬関数の適切なポリシーを算出する。
論文 参考訳(メタデータ) (2020-06-11T05:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。