論文の概要: Landmark-Guided Subgoal Generation in Hierarchical Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2110.13625v1
- Date: Tue, 26 Oct 2021 12:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 15:18:37.693569
- Title: Landmark-Guided Subgoal Generation in Hierarchical Reinforcement
Learning
- Title(参考訳): 階層型強化学習におけるランドマーク誘導サブゴアル生成
- Authors: Junsu Kim, Younggyo Seo, Jinwoo Shin
- Abstract要約: ランドマークによる階層的強化学習(HIGL)について紹介する。
HIGLは、ランドマークでガイドされたアクションスペースを削減した、ハイレベルなポリシーをトレーニングするための新しいフレームワークである。
我々の実験は、我々のフレームワークが様々な制御タスクで先行技術より優れていることを示した。
- 参考スコア(独自算出の注目度): 64.97599673479678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-conditioned hierarchical reinforcement learning (HRL) has shown
promising results for solving complex and long-horizon RL tasks. However, the
action space of high-level policy in the goal-conditioned HRL is often large,
so it results in poor exploration, leading to inefficiency in training. In this
paper, we present HIerarchical reinforcement learning Guided by Landmarks
(HIGL), a novel framework for training a high-level policy with a reduced
action space guided by landmarks, i.e., promising states to explore. The key
component of HIGL is twofold: (a) sampling landmarks that are informative for
exploration and (b) encouraging the high-level policy to generate a subgoal
towards a selected landmark. For (a), we consider two criteria: coverage of the
entire visited state space (i.e., dispersion of states) and novelty of states
(i.e., prediction error of a state). For (b), we select a landmark as the very
first landmark in the shortest path in a graph whose nodes are landmarks. Our
experiments demonstrate that our framework outperforms prior-arts across a
variety of control tasks, thanks to efficient exploration guided by landmarks.
- Abstract(参考訳): 目標条件付き階層強化学習(hrl)は,複雑かつ長期のrlタスクを解決するための有望な結果を示している。
しかし、目標条件付きHRLにおける高レベル政策の行動空間は、しばしば大きいため、探索が不十分になり、訓練の効率が低下する。
本稿では,ランドマーク(higl)に導かれる階層的強化学習について述べる。ランドマークに導かれるアクション空間を縮小したハイレベルなポリシーを学習するための新しい枠組みである。
HIGLのキーコンポーネントは2つです。
(a)調査や調査に有用なランドマークを採集すること
(b)選択されたランドマークに向かってサブゴールを生成するよう高水準の政策を奨励する。
のために
a) 訪問状態空間全体(すなわち状態の分散)のカバレッジと状態の新規性(すなわち状態の予測誤差)の2つの基準を考慮する。
のために
b) ノードがランドマークであるグラフにおいて,最短経路における最初のランドマークとしてランドマークを選択する。
私たちの実験では、ランドマークによる効率的な探索によって、フレームワークがさまざまなコントロールタスクで先行技術を上回ることが示されています。
関連論文リスト
- GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - Balancing Exploration and Exploitation in Hierarchical Reinforcement
Learning via Latent Landmark Graphs [31.147969569517286]
ゴール・コンディションド・階層的強化学習(GCHRL)は、強化学習における探索・探索ジレンマに対処するための有望なパラダイムである。
GCHRLの有効性は、サブゴール表現関数とサブゴール選択戦略に大きく依存している。
本稿では,潜在ランドマークグラフの動的構築による階層的強化学習を提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:23Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。