論文の概要: Exploring the Edges of Latent State Clusters for Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.01396v1
- Date: Sun, 03 Nov 2024 01:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:13.959013
- Title: Exploring the Edges of Latent State Clusters for Goal-Conditioned Reinforcement Learning
- Title(参考訳): ゴールコンディション強化学習のための潜在状態クラスタのエッジ探索
- Authors: Yuanlin Duan, Guofeng Cui, He Zhu,
- Abstract要約: クラスタエッジ探索(CE2$)は,エージェントがアクセス可能な目標状態に優先順位を与える,新たな目標指向探索アルゴリズムである。
挑戦的なロボティクス環境では、CE2$はベースライン法やアブレーションに比べて探索の効率が優れている。
- 参考スコア(独自算出の注目度): 6.266160051617362
- License:
- Abstract: Exploring unknown environments efficiently is a fundamental challenge in unsupervised goal-conditioned reinforcement learning. While selecting exploratory goals at the frontier of previously explored states is an effective strategy, the policy during training may still have limited capability of reaching rare goals on the frontier, resulting in reduced exploratory behavior. We propose "Cluster Edge Exploration" ($CE^2$), a new goal-directed exploration algorithm that when choosing goals in sparsely explored areas of the state space gives priority to goal states that remain accessible to the agent. The key idea is clustering to group states that are easily reachable from one another by the current policy under training in a latent space and traversing to states holding significant exploration potential on the boundary of these clusters before doing exploratory behavior. In challenging robotics environments including navigating a maze with a multi-legged ant robot, manipulating objects with a robot arm on a cluttered tabletop, and rotating objects in the palm of an anthropomorphic robotic hand, $CE^2$ demonstrates superior efficiency in exploration compared to baseline methods and ablations.
- Abstract(参考訳): 未知の環境を効率的に探索することは、教師なしの目標条件強化学習における根本的な課題である。
前述した州のフロンティアで探索目標を選択することは効果的な戦略であるが、訓練中の政策はフロンティアで希少な目標に達する能力に制限され、探索行動が減少する可能性がある。
目的指向探索アルゴリズムである"Cluster Edge Exploration"(CE^2$)を提案する。
鍵となる考え方は、潜伏空間における訓練中の現在のポリシーによって互いに容易に到達可能な状態へのクラスタリングであり、探索的な振る舞いを行う前にこれらのクラスタの境界に重要な探索可能性を持つ状態へトラバースすることである。
多足のアリロボットで迷路をナビゲートする、散らかったテーブルトップでロボットアームで物体を操作する、擬人化ロボットハンドの手のひらで回転する、といった挑戦的なロボット環境において、CE^2$は、基準法やアブレーションよりも探索の効率が優れている。
関連論文リスト
- Planning Goals for Exploration [22.047797646698527]
Planning Exploratory Goals(PEG)は,本質的な探索報酬を直接最適化する訓練エピソード毎の目標を設定する手法である。
PEGは世界モデルを学び、サンプリングベースの計画アルゴリズムを適用して"目標コマンドを計画"する
論文 参考訳(メタデータ) (2023-03-23T02:51:50Z) - Scaling Goal-based Exploration via Pruning Proto-goals [10.976262029859424]
強化学習における最も厄介な課題の1つは、広大な領域に拡大する探索である。
ゴール指向で目的を持った行動は、これを克服できるが、良いゴールスペースに依存している。
提案手法は,人間設計者が広いが有意義な原ゴール空間を指定できるように,中間領域を明示的に求めている。
論文 参考訳(メタデータ) (2023-02-09T15:22:09Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Landmark-Guided Subgoal Generation in Hierarchical Reinforcement
Learning [64.97599673479678]
ランドマークによる階層的強化学習(HIGL)について紹介する。
HIGLは、ランドマークでガイドされたアクションスペースを削減した、ハイレベルなポリシーをトレーニングするための新しいフレームワークである。
我々の実験は、我々のフレームワークが様々な制御タスクで先行技術より優れていることを示した。
論文 参考訳(メタデータ) (2021-10-26T12:16:19Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals [8.98526174345299]
本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
論文 参考訳(メタデータ) (2020-08-05T12:19:14Z) - LEAF: Latent Exploration Along the Frontier [47.304858727365094]
自己組織化された目標の提案と到達は、探索と効率的なポリシー学習アルゴリズムの鍵となるコンポーネントである。
到達可能な状態の動的対応多様体を学習する探索フレームワークを提案する。
提案手法は,ロボット環境における既存のベースラインよりも優れた,自己教師付き探索アルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-05-21T22:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。