Fugu-MT 論文翻訳(概要): Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs

論文の概要: Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs

arxiv url: http://arxiv.org/abs/2311.02847v2
Date: Wed, 8 Nov 2023 06:12:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 12:46:11.463803
Title: Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs
Title（参考訳）: LLMを用いた汎用人工物操作のための運動認識プロンプト
Authors: Wenke Xia, Dong Wang, Xincheng Pang, Zhigang Wang, Bin Zhao, Di Hu
Abstract要約: 汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。実世界のデータ収集と正確なオブジェクトシミュレーションの禁止コストのため、これらの研究が多種多様な記述されたオブジェクトにまたがって広範な適応性を実現することは依然として困難である。本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
参考スコア（独自算出の注目度）: 17.146998322222963
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalizable articulated object manipulation is essential for home-assistant robots. Recent efforts focus on imitation learning from demonstrations or reinforcement learning in simulation, however, due to the prohibitive costs of real-world data collection and precise object simulation, it still remains challenging for these works to achieve broad adaptability across diverse articulated objects. Recently, many works have tried to utilize the strong in-context learning ability of Large Language Models (LLMs) to achieve generalizable robotic manipulation, but most of these researches focus on high-level task planning, sidelining low-level robotic control. In this work, building on the idea that the kinematic structure of the object determines how we can manipulate it, we propose a kinematic-aware prompting framework that prompts LLMs with kinematic knowledge of objects to generate low-level motion trajectory waypoints, supporting various object manipulation. To effectively prompt LLMs with the kinematic structure of different objects, we design a unified kinematic knowledge parser, which represents various articulated objects as a unified textual description containing kinematic joints and contact location. Building upon this unified description, a kinematic-aware planner model is proposed to generate precise 3D manipulation waypoints via a designed kinematic-aware chain-of-thoughts prompting method. Our evaluation spanned 48 instances across 16 distinct categories, revealing that our framework not only outperforms traditional methods on 8 seen categories but also shows a powerful zero-shot capability for 8 unseen articulated object categories. Moreover, the real-world experiments on 7 different object categories prove our framework's adaptability in practical scenarios. Code is released at \href{https://github.com/GeWu-Lab/LLM_articulated_object_manipulation/tree/main}{here}.
Abstract（参考訳）: 汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。シミュレーションにおける実証や強化学習からの模倣学習に焦点が当てられているが、実世界のデータ収集と精密物体シミュレーションの禁止コストのため、これらの研究が多種多様な調音オブジェクトにまたがる広範な適応性を実現することは依然として困難である。近年,大規模言語モデル(llm)の強固な文脈学習能力を活用してロボット操作を一般化しようとする研究が数多く行われているが,そのほとんどは高レベルなタスク計画と低レベルロボット制御の側面に焦点を当てている。本研究では,物体の運動的構造が操作の仕方を決定するという考え方に基づいて,物体の運動的知識によってLLMを誘導し,低レベルな運動軌跡を発生させ,様々な物体の操作を支援する機構を提案する。異なる物体の運動構造を持つLLMを効果的に促すため,各種の関節と接触位置を包含した統一的なテキスト記述として,多言語で表現された物体を表現した統一的な運動情報解析器を設計する。この統一的な記述に基づいて、キネマティック・アウェア・プランナーモデルが提案され、設計されたキネマティック・アウェア・チェーン・オブ・シンセサイザー法による正確な3次元操作経路ポイントを生成する。 16の異なるカテゴリにまたがる48のインスタンスを評価したところ、我々のフレームワークは従来の手法を8つのカテゴリで上回るだけでなく、8つの未確認対象カテゴリに対して強力なゼロショット能力を示した。さらに、7つの異なるオブジェクトカテゴリに関する実世界の実験は、実践シナリオにおける我々のフレームワークの適応性を証明する。コードは \href{https://github.com/GeWu-Lab/LLM_articulated_object_manipulation/tree/main}{here} でリリースされる。

関連論文リスト

ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文参考訳（メタデータ） (2025-03-11T04:42:59Z)
ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration [10.558622685760346]
本稿では,視覚・言語・アクションモデルによるオブジェクトの一般化を実現するための,シンプルで効果的な手法を提案する。我々の手法は、ターゲットオブジェクトに関する知識を注入する軽量でスケーラブルな方法を提供する。我々は、実際のロボットプラットフォーム上でObjectVLAを評価し、64%の成功率で100の新規オブジェクトを一般化できることを実証した。
論文参考訳（メタデータ） (2025-02-26T15:56:36Z)
Efficient Object-centric Representation Learning with Pre-trained Geometric Prior [1.9685736810241874]
本稿では、幾何学的理解を重視し、事前学習された視覚モデルを利用して物体発見を促進する弱教師付きフレームワークを提案する。本手法では,オブジェクト中心学習に特化して設計された効率的なスロットデコーダを導入し,露骨な深度情報を必要としない多目的シーンの効率的な表現を可能にする。
論文参考訳（メタデータ） (2024-12-16T20:01:35Z)
RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。 RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。我々は,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。
論文参考訳（メタデータ） (2024-03-24T05:55:39Z)
GAMMA: Generalizable Articulation Modeling and Manipulation for Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。 GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文参考訳（メタデータ） (2023-09-28T08:57:14Z)
ROAM: Robust and Object-Aware Motion Generation Using Neural Pose Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-24T17:59:51Z)
FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects [14.034256001448574]
そこで本研究では,様々な物体の潜在的な動きを学習して予測する視覚ベースシステムを提案する。我々は,このベクトル場に基づく解析的運動プランナを配置し,最大調音を与えるポリシを実現する。その結果,本システムは実世界のシミュレーション実験と実世界実験の両方において,最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2022-05-09T15:35:33Z)
Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文参考訳（メタデータ） (2022-03-18T21:13:56Z)
You Only Demonstrate Once: Category-Level Manipulation from Single Visual Demonstration [9.245605426105922]
この研究は、新しいカテゴリーレベルの操作フレームワークを提案する。オブジェクト中心のカテゴリーレベルの表現とモデルなしの6 DoFモーショントラッキングを使用する。実験は、高精度な組み立てにおける様々な産業課題において、その効果を実証している。
論文参考訳（メタデータ） (2022-01-30T03:59:14Z)
V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文参考訳（メタデータ） (2021-11-07T02:31:09Z)
VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文参考訳（メタデータ） (2021-06-28T07:47:31Z)
Multi-Modal Learning of Keypoint Predictive Models for Visual Object Manipulation [6.853826783413853]
人間は、新しい環境で物体を操作するという点において、素晴らしい一般化能力を持っている。ロボットのためのこのようなボディスキーマの学習方法は、まだ未解決の問題である。本研究では,視覚的潜在表現から物体を把握する際に,ロボットの運動モデルを拡張する自己教師型アプローチを開発する。
論文参考訳（メタデータ） (2020-11-08T01:04:59Z)
"What's This?" -- Learning to Segment Unknown Objects from Manipulation Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文参考訳（メタデータ） (2020-11-06T10:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。