論文の概要: Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs
- arxiv url: http://arxiv.org/abs/2311.02847v2
- Date: Wed, 8 Nov 2023 06:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 12:46:11.463803
- Title: Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs
- Title(参考訳): LLMを用いた汎用人工物操作のための運動認識プロンプト
- Authors: Wenke Xia, Dong Wang, Xincheng Pang, Zhigang Wang, Bin Zhao, Di Hu
- Abstract要約: 汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
実世界のデータ収集と正確なオブジェクトシミュレーションの禁止コストのため、これらの研究が多種多様な記述されたオブジェクトにまたがって広範な適応性を実現することは依然として困難である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.146998322222963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable articulated object manipulation is essential for home-assistant
robots. Recent efforts focus on imitation learning from demonstrations or
reinforcement learning in simulation, however, due to the prohibitive costs of
real-world data collection and precise object simulation, it still remains
challenging for these works to achieve broad adaptability across diverse
articulated objects. Recently, many works have tried to utilize the strong
in-context learning ability of Large Language Models (LLMs) to achieve
generalizable robotic manipulation, but most of these researches focus on
high-level task planning, sidelining low-level robotic control. In this work,
building on the idea that the kinematic structure of the object determines how
we can manipulate it, we propose a kinematic-aware prompting framework that
prompts LLMs with kinematic knowledge of objects to generate low-level motion
trajectory waypoints, supporting various object manipulation. To effectively
prompt LLMs with the kinematic structure of different objects, we design a
unified kinematic knowledge parser, which represents various articulated
objects as a unified textual description containing kinematic joints and
contact location. Building upon this unified description, a kinematic-aware
planner model is proposed to generate precise 3D manipulation waypoints via a
designed kinematic-aware chain-of-thoughts prompting method. Our evaluation
spanned 48 instances across 16 distinct categories, revealing that our
framework not only outperforms traditional methods on 8 seen categories but
also shows a powerful zero-shot capability for 8 unseen articulated object
categories. Moreover, the real-world experiments on 7 different object
categories prove our framework's adaptability in practical scenarios. Code is
released at
\href{https://github.com/GeWu-Lab/LLM_articulated_object_manipulation/tree/main}{here}.
- Abstract(参考訳): 汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
シミュレーションにおける実証や強化学習からの模倣学習に焦点が当てられているが、実世界のデータ収集と精密物体シミュレーションの禁止コストのため、これらの研究が多種多様な調音オブジェクトにまたがる広範な適応性を実現することは依然として困難である。
近年,大規模言語モデル(llm)の強固な文脈学習能力を活用してロボット操作を一般化しようとする研究が数多く行われているが,そのほとんどは高レベルなタスク計画と低レベルロボット制御の側面に焦点を当てている。
本研究では,物体の運動的構造が操作の仕方を決定するという考え方に基づいて,物体の運動的知識によってLLMを誘導し,低レベルな運動軌跡を発生させ,様々な物体の操作を支援する機構を提案する。
異なる物体の運動構造を持つLLMを効果的に促すため,各種の関節と接触位置を包含した統一的なテキスト記述として,多言語で表現された物体を表現した統一的な運動情報解析器を設計する。
この統一的な記述に基づいて、キネマティック・アウェア・プランナーモデルが提案され、設計されたキネマティック・アウェア・チェーン・オブ・シンセサイザー法による正確な3次元操作経路ポイントを生成する。
16の異なるカテゴリにまたがる48のインスタンスを評価したところ、我々のフレームワークは従来の手法を8つのカテゴリで上回るだけでなく、8つの未確認対象カテゴリに対して強力なゼロショット能力を示した。
さらに、7つの異なるオブジェクトカテゴリに関する実世界の実験は、実践シナリオにおける我々のフレームワークの適応性を証明する。
コードは \href{https://github.com/GeWu-Lab/LLM_articulated_object_manipulation/tree/main}{here} でリリースされる。
関連論文リスト
- RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。
RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。
我々は,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T05:55:39Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects [14.034256001448574]
そこで本研究では,様々な物体の潜在的な動きを学習して予測する視覚ベースシステムを提案する。
我々は,このベクトル場に基づく解析的運動プランナを配置し,最大調音を与えるポリシを実現する。
その結果,本システムは実世界のシミュレーション実験と実世界実験の両方において,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-09T15:35:33Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - You Only Demonstrate Once: Category-Level Manipulation from Single
Visual Demonstration [9.245605426105922]
この研究は、新しいカテゴリーレベルの操作フレームワークを提案する。
オブジェクト中心のカテゴリーレベルの表現とモデルなしの6 DoFモーショントラッキングを使用する。
実験は、高精度な組み立てにおける様々な産業課題において、その効果を実証している。
論文 参考訳(メタデータ) (2022-01-30T03:59:14Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z) - VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating
3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。
それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。
本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文 参考訳(メタデータ) (2021-06-28T07:47:31Z) - Multi-Modal Learning of Keypoint Predictive Models for Visual Object
Manipulation [6.853826783413853]
人間は、新しい環境で物体を操作するという点において、素晴らしい一般化能力を持っている。
ロボットのためのこのようなボディスキーマの学習方法は、まだ未解決の問題である。
本研究では,視覚的潜在表現から物体を把握する際に,ロボットの運動モデルを拡張する自己教師型アプローチを開発する。
論文 参考訳(メタデータ) (2020-11-08T01:04:59Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。