論文の概要: Make a Donut: Hierarchical EMD-Space Planning for Zero-Shot Deformable Manipulation with Tools
- arxiv url: http://arxiv.org/abs/2311.02787v2
- Date: Sun, 24 Mar 2024 23:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:35:50.843840
- Title: Make a Donut: Hierarchical EMD-Space Planning for Zero-Shot Deformable Manipulation with Tools
- Title(参考訳): ツールによるゼロショット変形操作のための階層的EMD空間計画
- Authors: Yang You, Bokui Shen, Congyue Deng, Haoran Geng, Songlin Wei, He Wang, Leonidas Guibas,
- Abstract要約: 本研究では,複雑な長期タスクに対処可能な実証自由階層型計画手法を提案する。
我々は,大規模言語モデル (LLMs) を用いて,特定のタスクに対応する高レベルステージ・バイ・ステージ・プランを記述している。
我々は、実世界のロボットプラットフォームの実験的な試行で、我々のアプローチをさらに裏付ける。
- 参考スコア(独自算出の注目度): 14.069149456110676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deformable object manipulation stands as one of the most captivating yet formidable challenges in robotics. While previous techniques have predominantly relied on learning latent dynamics through demonstrations, typically represented as either particles or images, there exists a pertinent limitation: acquiring suitable demonstrations, especially for long-horizon tasks, can be elusive. Moreover, basing learning entirely on demonstrations can hamper the model's ability to generalize beyond the demonstrated tasks. In this work, we introduce a demonstration-free hierarchical planning approach capable of tackling intricate long-horizon tasks without necessitating any training. We employ large language models (LLMs) to articulate a high-level, stage-by-stage plan corresponding to a specified task. For every individual stage, the LLM provides both the tool's name and the Python code to craft intermediate subgoal point clouds. With the tool and subgoal for a particular stage at our disposal, we present a granular closed-loop model predictive control strategy. This leverages Differentiable Physics with Point-to-Point correspondence (DiffPhysics-P2P) loss in the earth mover distance (EMD) space, applied iteratively. Experimental findings affirm that our technique surpasses multiple benchmarks in dough manipulation, spanning both short and long horizons. Remarkably, our model demonstrates robust generalization capabilities to novel and previously unencountered complex tasks without any preliminary demonstrations. We further substantiate our approach with experimental trials on real-world robotic platforms. Our project page: https://qq456cvb.github.io/projects/donut.
- Abstract(参考訳): 変形可能な物体の操作は、ロボット工学において最も魅了されがちな課題の1つだ。
従来の技術は、通常粒子または画像として表現されるデモを通して潜伏力学を学習することに大きく依存してきたが、関連する制限がある。
さらに、デモに完全に基づく学習は、実証されたタスクを超えてモデルを一般化する能力を阻害する可能性がある。
本研究では,複雑な長期タスクにトレーニングを必要とせずに対処できる実演自由階層型計画手法を提案する。
我々は,大規模言語モデル (LLMs) を用いて,特定のタスクに対応する高レベルステージ・バイ・ステージ・プランを記述している。
個々のステージ毎に、LLMはツールの名前とPythonコードの両方を提供して、中間のサブゴールポイントクラウドを作成できる。
このツールとサブゴールを用いて, 粒状閉ループモデル予測制御手法を提案する。
これは、地球移動距離(EMD)空間におけるDiffPhysics-P2P(DiffPhysics-P2P)損失を反復的に適用した微分可能な物理を利用する。
実験結果から,本手法は短地平線と長地の両方にまたがる生地操作において,複数のベンチマークを上回ることが確認された。
注目すべきことに,本モデルでは,前例のない複雑なタスクに対して,事前のデモンストレーションを伴わずに,堅牢な一般化能力を示す。
我々は、実世界のロボットプラットフォームの実験的な試行で、我々のアプローチをさらに裏付ける。
私たちのプロジェクトページは、https://qq456cvb.github.io/projects/donutです。
関連論文リスト
- Learning Generalizable 3D Manipulation With 10 Demonstrations [16.502781729164973]
10個のデモから操作スキルを学習する新しいフレームワークを提案する。
シミュレーションベンチマークと実世界のロボットシステムの両方に関する広範な実験を通じて、我々のフレームワークを検証する。
この研究は、現実世界のアプリケーションにおいて、効率的で一般化可能な操作スキル学習を前進させる大きな可能性を示している。
論文 参考訳(メタデータ) (2024-11-15T14:01:02Z) - Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。
提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文 参考訳(メタデータ) (2024-03-25T19:04:59Z) - DITTO: Demonstration Imitation by Trajectory Transformation [31.930923345163087]
そこで本研究では,RGB-Dビデオ録画による実演映像のワンショット模倣の問題に対処する。
本稿では,2段階のプロセスを提案する。第1段階では実演軌道をオフラインに抽出し,操作対象のセグメンテーションと,容器などの二次物体に対する相対運動を決定する。
オンライン軌道生成段階では、まず全ての物体を再検出し、次にデモ軌道を現在のシーンにワープし、ロボット上で実行します。
論文 参考訳(メタデータ) (2024-03-22T13:46:51Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - DiffSkill: Skill Abstraction from Differentiable Physics for Deformable
Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。
特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。
次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文 参考訳(メタデータ) (2022-03-31T17:59:38Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。