論文の概要: Flexible and Efficient Long-Range Planning Through Curious Exploration
- arxiv url: http://arxiv.org/abs/2004.10876v2
- Date: Wed, 8 Jul 2020 06:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 18:31:20.166486
- Title: Flexible and Efficient Long-Range Planning Through Curious Exploration
- Title(参考訳): キュラス探査による柔軟かつ効率的な長距離計画
- Authors: Aidan Curtis, Minjian Xin, Dilip Arumugam, Kevin Feigelis, Daniel
Yamins
- Abstract要約: The Curious Sample Planner can realize temporallyextended plan for a wide range of really 3D task。
対照的に、標準的な計画と学習の方法は、多くの場合、これらのタスクを全く解決しなかったり、膨大な数のトレーニングサンプルでのみ実行できなかったりします。
- 参考スコア(独自算出の注目度): 13.260508939271764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying algorithms that flexibly and efficiently discover
temporally-extended multi-phase plans is an essential step for the advancement
of robotics and model-based reinforcement learning. The core problem of
long-range planning is finding an efficient way to search through the tree of
possible action sequences. Existing non-learned planning solutions from the
Task and Motion Planning (TAMP) literature rely on the existence of logical
descriptions for the effects and preconditions for actions. This constraint
allows TAMP methods to efficiently reduce the tree search problem but limits
their ability to generalize to unseen and complex physical environments. In
contrast, deep reinforcement learning (DRL) methods use flexible
neural-network-based function approximators to discover policies that
generalize naturally to unseen circumstances. However, DRL methods struggle to
handle the very sparse reward landscapes inherent to long-range multi-step
planning situations. Here, we propose the Curious Sample Planner (CSP), which
fuses elements of TAMP and DRL by combining a curiosity-guided sampling
strategy with imitation learning to accelerate planning. We show that CSP can
efficiently discover interesting and complex temporally-extended plans for
solving a wide range of physically realistic 3D tasks. In contrast, standard
planning and learning methods often fail to solve these tasks at all or do so
only with a huge and highly variable number of training samples. We explore the
use of a variety of curiosity metrics with CSP and analyze the types of
solutions that CSP discovers. Finally, we show that CSP supports task transfer
so that the exploration policies learned during experience with one task can
help improve efficiency on related tasks.
- Abstract(参考訳): 時間的拡張型マルチフェーズプランを柔軟かつ効率的に発見するアルゴリズムは、ロボット工学の進歩とモデルに基づく強化学習にとって重要なステップである。
長距離計画の核となる問題は、可能なアクションシーケンスのツリーを探索する効率的な方法を見つけることである。
タスク・アンド・モーション・プランニング(tamp)による既存の非学習型計画ソリューションは、アクションの効果と前提条件に対する論理的記述の存在に依存している。
この制約により、tampメソッドは、ツリー探索問題を効率的に減らすことができるが、隠れない複雑な物理環境に一般化する能力は制限される。
対照的に、深層強化学習(DRL)法は、柔軟なニューラルネットワークに基づく関数近似を用いて、自然に見えない状況に一般化するポリシーを発見する。
しかし、DRL法は、長距離多段階計画環境に固有の非常にまばらな報酬景観を扱うのに苦労する。
本稿では、好奇心誘導サンプリング戦略と模倣学習を組み合わせることで、TAMPとDRLの要素を融合させるCurious Sample Planner(CSP)を提案する。
CSPは、多種多様なリアルな3Dタスクを解くための、興味深く複雑な時間的拡張プランを効率的に発見できることを示す。
対照的に、標準的な計画と学習の手法は、これらのタスクを全く解決できなかったり、巨大な、非常に可変なトレーニングサンプルでしかできなかったりします。
我々は、CSPで様々な好奇心メトリクスを使用することを検討し、CSPが発見するソリューションの種類を分析する。
最後に、CSPはタスク転送をサポートし、あるタスクの経験から学んだ探索ポリシーが関連するタスクの効率向上に役立つことを示す。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Multi-Robot Path Planning Combining Heuristics and Multi-Agent
Reinforcement Learning [0.0]
移動過程においては、移動距離を最小化しながら他の移動ロボットとの衝突を避ける必要がある。
従来の方法では、競合を避けるために探索手法を用いて経路を継続的に再設計するか、学習アプローチに基づいた衝突回避戦略を選択するかのどちらかである。
本稿では,探索,経験則,マルチエージェント強化学習を組み合わせた経路計画手法MAPPOHRを提案する。
論文 参考訳(メタデータ) (2023-06-02T05:07:37Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Representation, learning, and planning algorithms for geometric task and
motion planning [24.862289058632186]
幾何学的課題と運動計画(GTAMP)を導くための学習フレームワークを提案する。
GTAMPはタスクと動作計画のサブクラスであり、複数の物体を可動障害物内の対象領域に移動させることが目的である。
GTAMP問題には、ハイブリッド検索空間と高価なアクション実現可能性チェックが含まれるため、標準グラフ探索アルゴリズムは直接適用されない。
論文 参考訳(メタデータ) (2022-03-09T09:47:01Z) - Adaptive Informative Path Planning Using Deep Reinforcement Learning for
UAV-based Active Sensing [2.6519061087638014]
深層強化学習(RL)に基づく情報経路計画のための新しい手法を提案する。
本手法は,モンテカルロ木探索とオフライン学習ニューラルネットワークを組み合わせた情報知覚行動の予測を行う。
ミッション中にトレーニングされたネットワークをデプロイすることにより、限られた計算資源を持つ物理プラットフォーム上で、サンプル効率の良いオンラインリプランニングが可能になる。
論文 参考訳(メタデータ) (2021-09-28T09:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。