論文の概要: Planning Goals for Exploration
- arxiv url: http://arxiv.org/abs/2303.13002v1
- Date: Thu, 23 Mar 2023 02:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 16:01:56.055260
- Title: Planning Goals for Exploration
- Title(参考訳): 探査の計画目標
- Authors: Edward S. Hu, Richard Chang, Oleh Rybkin, Dinesh Jayaraman
- Abstract要約: Planning Exploratory Goals(PEG)は,本質的な探索報酬を直接最適化する訓練エピソード毎の目標を設定する手法である。
PEGは世界モデルを学び、サンプリングベースの計画アルゴリズムを適用して"目標コマンドを計画"する
- 参考スコア(独自算出の注目度): 22.047797646698527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dropped into an unknown environment, what should an agent do to quickly learn
about the environment and how to accomplish diverse tasks within it? We address
this question within the goal-conditioned reinforcement learning paradigm, by
identifying how the agent should set its goals at training time to maximize
exploration. We propose "Planning Exploratory Goals" (PEG), a method that sets
goals for each training episode to directly optimize an intrinsic exploration
reward. PEG first chooses goal commands such that the agent's goal-conditioned
policy, at its current level of training, will end up in states with high
exploration potential. It then launches an exploration policy starting at those
promising states. To enable this direct optimization, PEG learns world models
and adapts sampling-based planning algorithms to "plan goal commands". In
challenging simulated robotics environments including a multi-legged ant robot
in a maze, and a robot arm on a cluttered tabletop, PEG exploration enables
more efficient and effective training of goal-conditioned policies relative to
baselines and ablations. Our ant successfully navigates a long maze, and the
robot arm successfully builds a stack of three blocks upon command. Website:
https://penn-pal-lab.github.io/peg/
- Abstract(参考訳): エージェントは未知の環境に陥り、環境について素早く学び、その中の様々なタスクをどうやって達成すべきか?
目標条件付き強化学習パラダイムでは,探索を最大化するために,エージェントが目標をトレーニング時に設定すべきかどうかを特定することで,この問題に対処する。
我々は,各訓練エピソードの目標を設定し,本質的探索報酬を直接最適化する「計画探索目標」(peg)を提案する。
pegはまず目標コマンドを選択し、エージェントの目標条件のポリシーは、現在の訓練レベルにおいて、高い探索可能性を持つ州で終わる。
その後、有望な州から探索政策を開始する。
この直接的な最適化を実現するため、PEGは世界モデルを学び、サンプリングベースの計画アルゴリズムを"計画目標コマンド"に適応させる。
迷路内のマルチレッグのアリロボットや、散らかったテーブルトップ上のロボットアームなど、シミュレーションされたロボット環境において、PEG探索は、ベースラインとアブレーションに対して、より効率的で効果的な目標条件のトレーニングを可能にする。
私たちのアリは長い迷路をナビゲートし、ロボットアームはコマンドで3ブロックの積み重ねを成功させました。
ウェブサイト:https://penn-pal-lab.github.io/peg/
関連論文リスト
- Exploring the Edges of Latent State Clusters for Goal-Conditioned Reinforcement Learning [6.266160051617362]
クラスタエッジ探索(CE2$)は,エージェントがアクセス可能な目標状態に優先順位を与える,新たな目標指向探索アルゴリズムである。
挑戦的なロボティクス環境では、CE2$はベースライン法やアブレーションに比べて探索の効率が優れている。
論文 参考訳(メタデータ) (2024-11-03T01:21:43Z) - Multi-Robot Informative Path Planning for Efficient Target Mapping using Deep Reinforcement Learning [11.134855513221359]
本稿では,多ボット情報経路計画のための新しい深層強化学習手法を提案する。
我々は、集中的な訓練と分散実行パラダイムを通じて強化学習政策を訓練する。
提案手法は,他の最先端のマルチロボット目標マッピング手法よりも33.75%向上する。
論文 参考訳(メタデータ) (2024-09-25T14:27:37Z) - A Backbone for Long-Horizon Robot Task Understanding [8.889888977376886]
本稿では,ロボットのタスク理解と伝達性を高めるために,Therblig-based Backbone Framework (TBBF)を提案する。
このフレームワークは、高レベルのロボットタスクを要素ロボット構成に分解するために、alrbligsをバックボーンとして使用する。
実験結果はこれらの手法を検証し、94.37%のリコールと94.4%の成功率を実世界のオンラインロボットテストで達成した。
論文 参考訳(メタデータ) (2024-08-02T15:32:42Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Advanced Skills by Learning Locomotion and Local Navigation End-to-End [10.872193480485596]
本研究は, 深層強化学習によるエンドツーエンド政策の訓練により, 完全な問題を解決することを提案する。
実際の四足歩行ロボットにおけるポリシーの展開を実演する。
論文 参考訳(メタデータ) (2022-09-26T16:35:00Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals [8.98526174345299]
本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
論文 参考訳(メタデータ) (2020-08-05T12:19:14Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。