論文の概要: LEAF: Latent Exploration Along the Frontier
- arxiv url: http://arxiv.org/abs/2005.10934v3
- Date: Mon, 26 Apr 2021 18:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:46:48.671381
- Title: LEAF: Latent Exploration Along the Frontier
- Title(参考訳): LEAF: 国境沿いの後期探査
- Authors: Homanga Bharadhwaj, Animesh Garg, Florian Shkurti
- Abstract要約: 自己組織化された目標の提案と到達は、探索と効率的なポリシー学習アルゴリズムの鍵となるコンポーネントである。
到達可能な状態の動的対応多様体を学習する探索フレームワークを提案する。
提案手法は,ロボット環境における既存のベースラインよりも優れた,自己教師付き探索アルゴリズムであることを示す。
- 参考スコア(独自算出の注目度): 47.304858727365094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised goal proposal and reaching is a key component for exploration
and efficient policy learning algorithms. Such a self-supervised approach
without access to any oracle goal sampling distribution requires deep
exploration and commitment so that long horizon plans can be efficiently
discovered. In this paper, we propose an exploration framework, which learns a
dynamics-aware manifold of reachable states. For a goal, our proposed method
deterministically visits a state at the current frontier of reachable states
(commitment/reaching) and then stochastically explores to reach the goal
(exploration). This allocates exploration budget near the frontier of the
reachable region instead of its interior. We target the challenging problem of
policy learning from initial and goal states specified as images, and do not
assume any access to the underlying ground-truth states of the robot and the
environment. To keep track of reachable latent states, we propose a
distance-conditioned reachability network that is trained to infer whether one
state is reachable from another within the specified latent space distance.
Given an initial state, we obtain a frontier of reachable states from that
state. By incorporating a curriculum for sampling easier goals (closer to the
start state) before more difficult goals, we demonstrate that the proposed
self-supervised exploration algorithm, superior performance compared to
existing baselines on a set of challenging robotic
environments.https://sites.google.com/view/leaf-exploration
- Abstract(参考訳): 自己監督目標の提案と到達は、探索と効率的なポリシー学習アルゴリズムの重要なコンポーネントである。
このようなoracleの目標サンプリングディストリビューションにアクセスできない自己監督的なアプローチは、ロングホライズン計画が効率的に発見できるように、深い調査とコミットメントを必要とします。
本稿では,到達可能な状態の動的認識多様体を学習する探索フレームワークを提案する。
目的,提案手法は到達可能な状態の現在のフロンティアにある状態(コミット/リーチ)を決定論的に訪問し,目標を達成するために確率的に探索する(探索)。
これは内部ではなく、到達可能な地域のフロンティア付近で調査予算を割り当てている。
画像として特定された初期状態と目標状態から、政策学習の課題を対象とし、ロボットの基盤となる地中状態と環境へのアクセスを想定しない。
到達可能な潜在状態の追跡のために、ある状態が特定潜在空間距離内で他の状態から到達可能かどうかを推定するように訓練した距離条件付き到達可能性ネットワークを提案する。
初期状態が与えられると、その状態から到達可能な状態のフロンティアを得る。
より難しい目標に先立って、簡単な目標(開始状態に近い)をサンプリングするためのカリキュラムを組み込むことで、提案する自己教師あり探索アルゴリズムが、既存のロボット環境における既存のベースラインよりも優れた性能を持つことを実証する。
関連論文リスト
- Exploring the Edges of Latent State Clusters for Goal-Conditioned Reinforcement Learning [6.266160051617362]
クラスタエッジ探索(CE2$)は,エージェントがアクセス可能な目標状態に優先順位を与える,新たな目標指向探索アルゴリズムである。
挑戦的なロボティクス環境では、CE2$はベースライン法やアブレーションに比べて探索の効率が優れている。
論文 参考訳(メタデータ) (2024-11-03T01:21:43Z) - Planning Goals for Exploration [22.047797646698527]
Planning Exploratory Goals(PEG)は,本質的な探索報酬を直接最適化する訓練エピソード毎の目標を設定する手法である。
PEGは世界モデルを学び、サンプリングベースの計画アルゴリズムを適用して"目標コマンドを計画"する
論文 参考訳(メタデータ) (2023-03-23T02:51:50Z) - Scaling Goal-based Exploration via Pruning Proto-goals [10.976262029859424]
強化学習における最も厄介な課題の1つは、広大な領域に拡大する探索である。
ゴール指向で目的を持った行動は、これを克服できるが、良いゴールスペースに依存している。
提案手法は,人間設計者が広いが有意義な原ゴール空間を指定できるように,中間領域を明示的に求めている。
論文 参考訳(メタデータ) (2023-02-09T15:22:09Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Landmark-Guided Subgoal Generation in Hierarchical Reinforcement
Learning [64.97599673479678]
ランドマークによる階層的強化学習(HIGL)について紹介する。
HIGLは、ランドマークでガイドされたアクションスペースを削減した、ハイレベルなポリシーをトレーニングするための新しいフレームワークである。
我々の実験は、我々のフレームワークが様々な制御タスクで先行技術より優れていることを示した。
論文 参考訳(メタデータ) (2021-10-26T12:16:19Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - InfoBot: Transfer and Exploration via the Information Bottleneck [105.28380750802019]
強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。
我々は、事前の経験から意思決定状態について学ぶことを提案する。
この単純なメカニズムは、部分的に観察された状態であっても、決定状態を効果的に識別する。
論文 参考訳(メタデータ) (2019-01-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。