論文の概要: Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.09858v1
- Date: Thu, 18 Nov 2021 18:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:48:38.603327
- Title: Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning
- Title(参考訳): 長期ホライゾン目標条件強化学習のための後継特徴ランドマーク
- Authors: Christopher Hoang, Sungryull Sohn, Jongwook Choi, Wilka Carvalho,
Honglak Lee
- Abstract要約: 大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
- 参考スコア(独自算出の注目度): 54.378444600773875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Operating in the real-world often requires agents to learn about a complex
environment and apply this understanding to achieve a breadth of goals. This
problem, known as goal-conditioned reinforcement learning (GCRL), becomes
especially challenging for long-horizon goals. Current methods have tackled
this problem by augmenting goal-conditioned policies with graph-based planning
algorithms. However, they struggle to scale to large, high-dimensional state
spaces and assume access to exploration mechanisms for efficiently collecting
training data. In this work, we introduce Successor Feature Landmarks (SFL), a
framework for exploring large, high-dimensional environments so as to obtain a
policy that is proficient for any goal. SFL leverages the ability of successor
features (SF) to capture transition dynamics, using it to drive exploration by
estimating state-novelty and to enable high-level planning by abstracting the
state-space as a non-parametric landmark-based graph. We further exploit SF to
directly compute a goal-conditioned policy for inter-landmark traversal, which
we use to execute plans to "frontier" landmarks at the edge of the explored
state space. We show in our experiments on MiniGrid and ViZDoom that SFL
enables efficient exploration of large, high-dimensional state spaces and
outperforms state-of-the-art baselines on long-horizon GCRL tasks.
- Abstract(参考訳): 現実世界で運用するには、エージェントが複雑な環境について学び、この理解を適用して幅広い目標を達成する必要がある。
ゴール条件強化学習(GCRL)と呼ばれるこの問題は、特に長期的目標において困難となる。
現在の手法では、ゴール条件付きポリシーをグラフベースの計画アルゴリズムで強化することでこの問題に対処している。
しかし、大規模で高次元な状態空間への拡張に苦労し、効率的にトレーニングデータを収集するための探索機構へのアクセスを想定している。
そこで本研究では,大規模かつ高次元な環境を探索する枠組みであるsflを導入し,任意の目標に熟達した方針を得る。
SFLは、遷移ダイナミクスを捉えるための後継機能(SF)の能力を生かし、ステートノベルティを推定して探索を推進し、ステート空間を非パラメトリックなランドマークベースのグラフとして抽象化することで高レベルの計画を可能にする。
さらに、我々はSFを利用してランドマーク間トラバーサルのゴール条件付きポリシーを直接計算し、探索された状態空間の端でランドマークを「フロンティア」する計画を実行する。
我々はMiniGridとViZDoomの実験において、SFLは大規模かつ高次元の状態空間の効率的な探索を可能にし、長距離GCRLタスクにおける最先端のベースラインより優れていることを示す。
関連論文リスト
- Offline Policy Learning via Skill-step Abstraction for Long-horizon Goal-Conditioned Tasks [7.122367852177223]
本稿では,長期GCタスクに対処するためのオフラインGCポリシー学習フレームワークを提案する。
このフレームワークでは、GCポリシーは、データ上のスキルステップの抽象化の漸進的なモデリングと合わせて、オフラインで徐々に学習される。
我々は,GCポリシーを多岐にわたる長期的目標に適応させる上で,GLvSAフレームワークの優位性と効率性を実証する。
論文 参考訳(メタデータ) (2024-08-21T03:05:06Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z) - Landmark-Guided Subgoal Generation in Hierarchical Reinforcement
Learning [64.97599673479678]
ランドマークによる階層的強化学習(HIGL)について紹介する。
HIGLは、ランドマークでガイドされたアクションスペースを削減した、ハイレベルなポリシーをトレーニングするための新しいフレームワークである。
我々の実験は、我々のフレームワークが様々な制御タスクで先行技術より優れていることを示した。
論文 参考訳(メタデータ) (2021-10-26T12:16:19Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。