論文の概要: Hierarchical Policy for Non-prehensile Multi-object Rearrangement with
Deep Reinforcement Learning and Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2109.08973v1
- Date: Sat, 18 Sep 2021 17:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 10:08:06.883289
- Title: Hierarchical Policy for Non-prehensile Multi-object Rearrangement with
Deep Reinforcement Learning and Monte Carlo Tree Search
- Title(参考訳): 深層強化学習とモンテカルロ木探索を用いた非従属多目的再構成のための階層的方針
- Authors: Fan Bai, Fei Meng, Jianbang Liu, Jiankun Wang, Max Q.-H. Meng
- Abstract要約: 本稿では,非包括的多目的再構成のための分割と征服のための階層的ポリシーを提案する。
高レベルポリシーでは、モンテカルロ木探索は複数のオブジェクト間の最適な再配置シーケンスを効率的に探索する。
低レベルポリシーでは、ロボットは経路プリミティブの順序に従って経路を計画し、目標に1つずつ近づくためにオブジェクトを操作する。
- 参考スコア(独自算出の注目度): 30.31462739429364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-prehensile multi-object rearrangement is a robotic task of planning
feasible paths and transferring multiple objects to their predefined target
poses without grasping. It needs to consider how each object reaches the target
and the order of object movement, which significantly deepens the complexity of
the problem. To address these challenges, we propose a hierarchical policy to
divide and conquer for non-prehensile multi-object rearrangement. In the
high-level policy, guided by a designed policy network, the Monte Carlo Tree
Search efficiently searches for the optimal rearrangement sequence among
multiple objects, which benefits from imitation and reinforcement. In the
low-level policy, the robot plans the paths according to the order of path
primitives and manipulates the objects to approach the goal poses one by one.
We verify through experiments that the proposed method can achieve a higher
success rate, fewer steps, and shorter path length compared with the
state-of-the-art.
- Abstract(参考訳): 非包括的多目的配置は、実現可能な経路を計画し、複数のオブジェクトを把握せずに予め定義されたターゲットポーズに転送するロボット作業である。
対象物が対象物にどのように到達し、対象物の動きの順序を考慮し、問題の複雑さを大幅に深める必要がある。
これらの課題に対処するため,我々は,非従属的多目的再配置を分割し,克服するための階層的ポリシーを提案する。
設計されたポリシーネットワークにより誘導された高レベルポリシでは、モンテカルロ木探索は、模倣と強化の恩恵を受ける複数のオブジェクト間の最適な再配置シーケンスを効率的に探索する。
低レベルポリシーでは、ロボットは経路プリミティブの順序に従って経路を計画し、目標に1つずつ近づくためにオブジェクトを操作する。
実験により,提案手法は,最先端技術と比較して高い成功率,少ないステップ,短いパス長を達成できることを確認した。
関連論文リスト
- MANER: Multi-Agent Neural Rearrangement Planning of Objects in Cluttered
Environments [8.15681999722805]
本稿では,マルチエージェントオブジェクトアレンジメント計画のための学習ベースのフレームワークを提案する。
複雑な環境におけるタスクシークエンシングとパス計画の課題に対処する。
論文 参考訳(メタデータ) (2023-06-10T23:53:28Z) - Take a Break in the Middle: Investigating Subgoals towards Hierarchical
Script Generation [41.79944184861954]
目標指向のスクリプト生成は、与えられた目標を達成するためのステップのリストを生成する新しいタスクである。
本稿では,認知理論の観点からタスクを拡張することを提案する。
論文 参考訳(メタデータ) (2023-05-18T12:10:06Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Effective Baselines for Multiple Object Rearrangement Planning in
Partially Observable Mapped Environments [5.32429768581469]
本研究の目的は, 自家用知的エージェントが部分観測可能性の下で効率的に再配置を計画できるようにすることである。
本研究では, モノリシック・モジュール型深層強化学習(DRL)法について検討した。
モノリシックDRL法は多目的再配置に必要な長期計画では成功しない。
また、再配置が必要なオブジェクトが環境に均一に分散されている場合、我々の欲張りのあるモジュラーエージェントは経験的に最適であることを示す。
論文 参考訳(メタデータ) (2023-01-24T08:03:34Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z) - A Simple Approach for Visual Rearrangement: 3D Mapping and Semantic
Search [71.14527779661181]
視覚的な部屋の配置は、視覚的な入力のみに基づいてオブジェクトを並べ替えるエージェントの能力を評価する。
本稿では,(1)どのオブジェクトを並べ替える必要があるかを探索し,マッピングし,(2)タスクが完了するまで各オブジェクトを並べ替える,という方法を提案する。
論文 参考訳(メタデータ) (2022-06-21T02:33:57Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - NeRP: Neural Rearrangement Planning for Unknown Objects [49.191284597526]
我々は,多段階のニューラルオブジェクト再構成計画のためのディープラーニングに基づくアプローチであるNeRP(Neural Rearrangement Planning)を提案する。
NeRPは、シミュレーションデータに基づいてトレーニングされ、現実世界に一般化される、これまで見たことのないオブジェクトで動作する。
論文 参考訳(メタデータ) (2021-06-02T17:56:27Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。