論文の概要: Broadly-Exploring, Local-Policy Trees for Long-Horizon Task Planning
- arxiv url: http://arxiv.org/abs/2010.06491v1
- Date: Tue, 13 Oct 2020 15:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 00:50:15.322123
- Title: Broadly-Exploring, Local-Policy Trees for Long-Horizon Task Planning
- Title(参考訳): 長期タスクプランニングのための広域探索型地域木
- Authors: Brian Ichter, Pierre Sermanet, Corey Lynch
- Abstract要約: 現実的な環境での長期計画には、高次元状態空間における逐次的なタスクを推論する能力が必要である。
本稿では,タスク条件付きモデルベースツリー探索であるBroadly-Exploring-Local-policy Trees (BELT)を提案する。
BELTは、目標条件付きポリシーを順に計画し、堅牢な計画を生成することができるように実験的に実証されている。
- 参考スコア(独自算出の注目度): 12.024736761925864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon planning in realistic environments requires the ability to
reason over sequential tasks in high-dimensional state spaces with complex
dynamics. Classical motion planning algorithms, such as rapidly-exploring
random trees, are capable of efficiently exploring large state spaces and
computing long-horizon, sequential plans. However, these algorithms are
generally challenged with complex, stochastic, and high-dimensional state
spaces as well as in the presence of narrow passages, which naturally emerge in
tasks that interact with the environment. Machine learning offers a promising
solution for its ability to learn general policies that can handle complex
interactions and high-dimensional observations. However, these policies are
generally limited in horizon length. Our approach, Broadly-Exploring,
Local-policy Trees (BELT), merges these two approaches to leverage the
strengths of both through a task-conditioned, model-based tree search. BELT
uses an RRT-inspired tree search to efficiently explore the state space.
Locally, the exploration is guided by a task-conditioned, learned policy
capable of performing general short-horizon tasks. This task space can be quite
general and abstract; its only requirements are to be sampleable and to
well-cover the space of useful tasks. This search is aided by a
task-conditioned model that temporally extends dynamics propagation to allow
long-horizon search and sequential reasoning over tasks. BELT is demonstrated
experimentally to be able to plan long-horizon, sequential trajectories with a
goal conditioned policy and generate plans that are robust.
- Abstract(参考訳): 現実環境での長期ホリゾン計画には、複雑なダイナミクスを持つ高次元状態空間における逐次的なタスクを推論する能力が必要である。
高速探索ランダムツリーのような古典的な動き計画アルゴリズムは、大きな状態空間を効率的に探索し、長い水平な逐次計画を計算することができる。
しかしながら、これらのアルゴリズムは一般に、複雑で確率的で高次元の状態空間と、環境と相互作用するタスクにおいて自然に現れる狭い通路の存在に挑戦される。
機械学習は、複雑な相互作用や高次元の観察を処理できる一般的なポリシーを学習できる、有望なソリューションを提供する。
しかし、これらの方針は一般に地平線長に制限されている。
我々のアプローチであるBroadly-Exploring, Local-policy Trees (BELT)は、これらの2つのアプローチをマージし、タスク条件付きモデルベースツリーサーチによって両方の長所を活用できる。
BELTはRRTにインスパイアされたツリーサーチを用いて、状態空間を効率的に探索する。
局所的には、この探索は、一般的な短期的タスクを実行することができるタスク条件付き学習政策によって導かれる。
このタスク空間は、非常に一般的で抽象的であり、その唯一の要件は、サンプル化可能であり、有用なタスクの空間を精査することである。
この探索は、時間的に動的伝搬を拡張したタスク条件付きモデルによって支援され、長い水平探索とタスクのシーケンシャル推論を可能にする。
BELTは、目標条件付きポリシーで長い水平なシーケンシャルな軌道を計画でき、堅牢な計画を生成することができる。
関連論文リスト
- Provably Efficient Long-Horizon Exploration in Monte Carlo Tree Search through State Occupancy Regularization [18.25487451605638]
状態占有度を正則化した政策最適化に基づく木探索アルゴリズムを導出し,それをボリュームMCTSと呼ぶ。
本研究では,この状態占有率の正規化目標に対する近似解として,カウントベース探索とサンプリングベース動作計画が導出可能であることを示す。
我々は,いくつかのロボットナビゲーション問題に対して本手法を試行し,Volume-MCTSがAlphaZeroより優れており,長期探査特性が著しく向上していることを見出した。
論文 参考訳(メタデータ) (2024-07-07T22:58:52Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Overcoming Exploration: Deep Reinforcement Learning in Complex
Environments from Temporal Logic Specifications [2.8904578737516764]
本稿では,大規模複雑な環境に展開する未知の連続時間ダイナミクスを有するタスク誘導型ロボットのためのDeep Reinforcement Learning (DRL)アルゴリズムを提案する。
本フレームワークは,大規模複雑な環境下での複雑なミッションをこなすロボットの性能(有効性,効率)を著しく向上させる。
論文 参考訳(メタデータ) (2022-01-28T16:39:08Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - LS3: Latent Space Safe Sets for Long-Horizon Visuomotor Control of
Iterative Tasks [28.287631944795823]
強化学習アルゴリズムは、複雑で長期のタスクを学習する高次元環境の探索において、驚くべき成功を収めた。
動的に不確実な環境での安全な学習のための有望な戦略は、エージェントが確実にタスク成功を保証できる状態に戻ることを要求することである。
本稿では、この戦略を、画像観察による反復的、長期的タスクに拡張するLatent Space Safe Sets (LS3)を提案する。
論文 参考訳(メタデータ) (2021-07-10T06:46:10Z) - Flexible and Efficient Long-Range Planning Through Curious Exploration [13.260508939271764]
The Curious Sample Planner can realize temporallyextended plan for a wide range of really 3D task。
対照的に、標準的な計画と学習の方法は、多くの場合、これらのタスクを全く解決しなかったり、膨大な数のトレーニングサンプルでのみ実行できなかったりします。
論文 参考訳(メタデータ) (2020-04-22T21:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。