論文の概要: Deep Hierarchical Planning from Pixels
- arxiv url: http://arxiv.org/abs/2206.04114v1
- Date: Wed, 8 Jun 2022 18:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 12:43:52.363757
- Title: Deep Hierarchical Planning from Pixels
- Title(参考訳): ピクセルからの深い階層計画
- Authors: Danijar Hafner, Kuang-Huei Lee, Ian Fischer, Pieter Abbeel
- Abstract要約: Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
- 参考スコア(独自算出の注目度): 86.14687388689204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent agents need to select long sequences of actions to solve complex
tasks. While humans easily break down tasks into subgoals and reach them
through millions of muscle commands, current artificial intelligence is limited
to tasks with horizons of a few hundred decisions, despite large compute
budgets. Research on hierarchical reinforcement learning aims to overcome this
limitation but has proven to be challenging, current methods rely on manually
specified goal spaces or subtasks, and no general solution exists. We introduce
Director, a practical method for learning hierarchical behaviors directly from
pixels by planning inside the latent space of a learned world model. The
high-level policy maximizes task and exploration rewards by selecting latent
goals and the low-level policy learns to achieve the goals. Despite operating
in latent space, the decisions are interpretable because the world model can
decode goals into images for visualization. Director outperforms exploration
methods on tasks with sparse rewards, including 3D maze traversal with a
quadruped robot from an egocentric camera and proprioception, without access to
the global position or top-down view that was used by prior work. Director also
learns successful behaviors across a wide range of environments, including
visual control, Atari games, and DMLab levels.
- Abstract(参考訳): インテリジェントエージェントは複雑なタスクを解決するために長い一連のアクションを選択する必要があります。
人間は簡単にタスクをサブゴールに分解し、何百万もの筋肉コマンドを通じてそれに到達するが、現在の人工知能は計算予算が大きいにもかかわらず、数百の意思決定を伴うタスクに限られている。
階層的強化学習の研究は、この制限を克服することを目的としているが、現在の手法は手動で指定された目標空間やサブタスクに依存しており、一般的な解決策は存在しないことが証明されている。
本稿では,学習世界モデルの潜在空間内で計画を行うことにより,画素から直接階層的振る舞いを学習する実践的手法である director を紹介する。
ハイレベル政策は潜在目標を選択してタスクと探索の報酬を最大化し、低レベル政策は目標を達成するために学習する。
潜在空間で運用されているにもかかわらず、世界モデルは可視化のために目標を画像にデコードできるため、決定は解釈可能である。
ディレクターは、エゴセントリックカメラからの四足歩行ロボットとの3D迷路トラバーサルや、前作で使われた世界的位置やトップダウンビューへのアクセスなしに、探索方法よりも優れている。
directorはまた、ビジュアルコントロール、atariゲーム、dmlabレベルなど、幅広い環境において成功した行動を学ぶ。
関連論文リスト
- Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback
and Dynamic Distance Constraint [40.3872201560003]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。
現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。
本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T03:11:09Z) - Universal Visual Decomposer: Long-Horizon Manipulation Made Easy [54.93745986073738]
現実世界のロボットタスクは、幅広い地平線を越えて、複数のステージを包含する。
従来のタスク分解手法では、タスク固有の知識が必要であり、計算集約的であり、新しいタスクに容易に適用できない。
視覚的長時間水平方向操作のためのオフザシェルフタスク分解法であるUniversal Visual Decomposer (UVD)を提案する。
シミュレーションと実世界のタスクの両方でUVDを広範囲に評価し、すべての場合において、UVDは模倣と強化学習設定でベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-12T17:59:41Z) - Learning Hierarchical Interactive Multi-Object Search for Mobile
Manipulation [10.21450780640562]
本稿では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索し,対象物を見つける,インタラクティブな多目的探索タスクを提案する。
これらの新たな課題は、探索されていない環境での操作とナビゲーションのスキルを組み合わせる必要がある。
本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。
論文 参考訳(メタデータ) (2023-07-12T12:25:33Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Discovering and Achieving Goals via World Models [61.95437238374288]
この問題に対する統一的なソリューションであるLatent Explorer Achiever (LEXA)を紹介する。
LEXAはイメージ入力から世界モデルを学び、それをエクスプローラーのトレーニングや、想像上のロールアウトから達成ポリシーに利用する。
教師なしフェーズの後、LEXAは追加の学習なしにゴール画像ゼロショットとして指定されたタスクを解決する。
論文 参考訳(メタデータ) (2021-10-18T17:59:58Z) - Efficient Robotic Object Search via HIEM: Hierarchical Policy Learning
with Intrinsic-Extrinsic Modeling [33.89793938441333]
本稿では,本質的・非本質的な報酬設定を伴う階層的・解釈可能なモデリングに基づく,オブジェクト探索タスクのための新しいポリシー学習パラダイムを提案する。
House3D環境下で行った実験は、我々のモデルで訓練されたロボットが、より最適かつ解釈可能な方法で物体探索タスクを実行できることを示す。
論文 参考訳(メタデータ) (2020-10-16T19:21:38Z) - GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep
Reinforcement Learning [21.661530291654692]
本稿では,ノイズの発散する領域を自律的に識別・無視するフレームワークを提案する。
我々のフレームワークは、ゴール探索アプローチを求める最先端のノベルティと組み合わせることができる。
論文 参考訳(メタデータ) (2020-08-10T19:50:06Z) - Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals [8.98526174345299]
本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
論文 参考訳(メタデータ) (2020-08-05T12:19:14Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。