論文の概要: PartInstruct: Part-level Instruction Following for Fine-grained Robot Manipulation
- arxiv url: http://arxiv.org/abs/2505.21652v2
- Date: Sat, 07 Jun 2025 15:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.150749
- Title: PartInstruct: Part-level Instruction Following for Fine-grained Robot Manipulation
- Title(参考訳): Part Instruct: きめ細かいロボットマニピュレーションのための部品レベルの指導
- Authors: Yifan Yin, Zhengtao Han, Shivam Aarya, Jianxin Wang, Shuhang Xu, Jiawei Peng, Angtian Wang, Alan Yuille, Tianmin Shu,
- Abstract要約: 本稿では,パートレベルの命令を用いたロボット操作モデルの訓練と評価を行うための,最初の大規模ベンチマークであるPartInstructを紹介する。
PartInstructは、14のカテゴリにまたがる513のオブジェクトインスタンスで構成され、それぞれにアノテートされた部分レベルの情報と、16のタスククラスに編成された1302のきめ細かい操作タスクで構成されている。
トレーニングセットは3Dシミュレータで合成された1万以上のエキスパート・デモからなり、各デモは高レベルなタスク・インストラクション、ベース部分に基づくスキル・インストラクションの連鎖、およびオブジェクトとその部分に関する地中3D情報と組み合わせられる。
- 参考スコア(独自算出の注目度): 19.55580055923319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained robot manipulation, such as lifting and rotating a bottle to display the label on the cap, requires robust reasoning about object parts and their relationships with intended tasks. Despite recent advances in training general-purpose robot manipulation policies guided by language instructions, there is a notable lack of large-scale datasets for fine-grained manipulation tasks with part-level instructions and diverse 3D object instances annotated with part-level labels. In this work, we introduce PartInstruct, the first large-scale benchmark for training and evaluating fine-grained robot manipulation models using part-level instructions. PartInstruct comprises 513 object instances across 14 categories, each annotated with part-level information, and 1302 fine-grained manipulation tasks organized into 16 task classes. Our training set consists of over 10,000 expert demonstrations synthesized in a 3D simulator, where each demonstration is paired with a high-level task instruction, a chain of base part-based skill instructions, and ground-truth 3D information about the object and its parts. Additionally, we designed a comprehensive test suite to evaluate the generalizability of learned policies across new states, objects, and tasks. We evaluated several state-of-the-art robot manipulation approaches, including end-to-end vision-language policy learning and bi-level planning models for robot manipulation on our benchmark. The experimental results reveal that current models struggle to robustly ground part concepts and predict actions in 3D space, and face challenges when manipulating object parts in long-horizon tasks.
- Abstract(参考訳): キャップにラベルを表示するためにボトルを持ち上げて回転させるようなきめ細かいロボット操作は、対象部品と意図したタスクとの関係について堅牢な推論を必要とする。
近年、言語命令で案内される汎用ロボット操作ポリシーの訓練が進んでいるが、パートレベルの命令と、パートレベルのラベルを付加した多種多様な3Dオブジェクトインスタンスを備えた、きめ細かな操作タスクのための大規模なデータセットが欠如している。
本研究では,パートレベルのインストラクションを用いたロボット操作モデルの訓練と評価を行う,最初の大規模ベンチマークであるPartInstructを紹介する。
PartInstructは、14のカテゴリにまたがる513のオブジェクトインスタンスで構成され、それぞれにアノテートされた部分レベルの情報と、16のタスククラスに編成された1302のきめ細かい操作タスクで構成されている。
トレーニングセットは3Dシミュレータで合成された1万以上のエキスパート・デモからなり、各デモは高レベルなタスク・インストラクション、ベース部分に基づくスキル・インストラクションの連鎖、およびオブジェクトとその部分に関する地中3D情報と組み合わせられる。
さらに、新しい状態、オブジェクト、タスクにわたる学習ポリシーの一般化性を評価するための総合的なテストスイートを設計した。
我々は,ロボット操作のためのエンドツーエンドのビジョン言語ポリシー学習やバイレベル計画モデルなど,最先端のロボット操作アプローチをベンチマークで評価した。
実験結果から, 現在のモデルでは, 3次元空間における概念をしっかりと基礎づけたり, 行動を予測するのに苦労しており, 長期作業において対象部品を操作する場合の課題に直面していることが明らかとなった。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Multi-task real-robot data with gaze attention for dual-arm fine manipulation [4.717749411286867]
本稿では,2つのアームタスクや細かな操作を必要とするタスクを含む多種多様なオブジェクト操作のデータセットを紹介する。
224k エピソード (150時間, 1,104 言語命令) のデータセットを作成した。
このデータセットには、視覚的注意信号とデュアルアクションラベル、アクションを堅牢な到達軌道とオブジェクトとの正確な相互作用に分離する信号、堅牢で正確なオブジェクト操作を実現するための言語命令が含まれる。
論文 参考訳(メタデータ) (2024-01-15T11:20:34Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding [42.04502185508723]
本稿では,3次元部分レベルの可読性と把握能力学習を促進するために,言語誘導型SHape grAsPingデータを提案する。
ロボット認知の観点から、我々は2段階のきめ細かいロボット把握フレームワーク(LangPartGPD)を設計する。
我々の手法は、人間とロボットの協調と大規模言語モデル(LLM)の利点を組み合わせたものである。
提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-27T07:00:54Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable
Manipulation Skills [27.214053107733186]
汎用オブジェクト操作スキルを学習するためのSAPIENマニピュレーションスキルベンチマーク(ManiSkill)を提案する。
ManiSkillは、リッチで多様な調音されたオブジェクトセットを利用することで、オブジェクトレベルのバリエーションをサポートする。
ManiSkillは、ロボットの学習コミュニティに、汎用的なオブジェクト操作スキルの学習を奨励する。
論文 参考訳(メタデータ) (2021-07-30T08:20:22Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。