論文の概要: Free-form language-based robotic reasoning and grasping
- arxiv url: http://arxiv.org/abs/2503.13082v1
- Date: Mon, 17 Mar 2025 11:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:15.263923
- Title: Free-form language-based robotic reasoning and grasping
- Title(参考訳): 自由形言語に基づくロボット推論と把握
- Authors: Runyu Jiao, Alice Fasoli, Francesco Giuliari, Matteo Bortolon, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi,
- Abstract要約: VLM(Vision-Language Models)は、テキストと画像の両方で顕著な推論能力を示している。
本稿では,事前学習されたVLMの世界の知識を活用して,人間の指示や物体空間配置を推論する新しい手法FreeGraspを提案する。
提案手法は,すべてのオブジェクトをキーポイントとして検出し,これらのキーポイントを用いて画像上のマークをアノテートし,GPT-4oのゼロショット空間推論を促進する。
- 参考スコア(独自算出の注目度): 9.866754994504324
- License:
- Abstract: Performing robotic grasping from a cluttered bin based on human instructions is a challenging task, as it requires understanding both the nuances of free-form language and the spatial relationships between objects. Vision-Language Models (VLMs) trained on web-scale data, such as GPT-4o, have demonstrated remarkable reasoning capabilities across both text and images. But can they truly be used for this task in a zero-shot setting? And what are their limitations? In this paper, we explore these research questions via the free-form language-based robotic grasping task, and propose a novel method, FreeGrasp, leveraging the pre-trained VLMs' world knowledge to reason about human instructions and object spatial arrangements. Our method detects all objects as keypoints and uses these keypoints to annotate marks on images, aiming to facilitate GPT-4o's zero-shot spatial reasoning. This allows our method to determine whether a requested object is directly graspable or if other objects must be grasped and removed first. Since no existing dataset is specifically designed for this task, we introduce a synthetic dataset FreeGraspData by extending the MetaGraspNetV2 dataset with human-annotated instructions and ground-truth grasping sequences. We conduct extensive analyses with both FreeGraspData and real-world validation with a gripper-equipped robotic arm, demonstrating state-of-the-art performance in grasp reasoning and execution. Project website: https://tev-fbk.github.io/FreeGrasp/.
- Abstract(参考訳): 人間の指示に基づいてロボットのグルーピングを実行することは、自由形式の言語のニュアンスと物体間の空間的関係の両方を理解する必要があるため、難しい作業である。
GPT-4oのようなWebスケールのデータに基づいて訓練された視覚言語モデル(VLM)は、テキストと画像の両方で顕著な推論能力を示している。
しかし、それらは本当にゼロショット設定でこのタスクに使えるのだろうか?
そして、その制限は何か?
本稿では,これらの研究課題を,自由言語に基づくロボット把握タスクを用いて探求し,事前学習されたVLMの世界知識を活用して人間の指示や物体空間配置を推論する新しい手法,FreeGraspを提案する。
提案手法は,すべてのオブジェクトをキーポイントとして検出し,これらのキーポイントを用いて画像上のマークをアノテートし,GPT-4oのゼロショット空間推論を促進する。
これにより、リクエストされたオブジェクトが直接把握可能かどうか、あるいは他のオブジェクトを最初に把握して削除する必要があるかどうかを判断できる。
既存のデータセットはこのタスクのために特別に設計されていないため、MetaGraspNetV2データセットを拡張して、人手による指示と接地構造把握シーケンスを拡張して、合成データセットFreeGraspDataを導入する。
我々は,FreeGraspDataとグリッパー搭載ロボットアームを用いた実世界バリデーションの両方を用いて広範囲に解析を行い,解析と実行における最先端性能を実証した。
プロジェクトWebサイト: https://tev-fbk.github.io/FreeGrasp/。
関連論文リスト
- HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models [20.412403432289583]
本稿では、画像とテキストの埋め込みを融合させるためのFiLM(Featurewise Linear Modulation)の階層的応用を特徴とするHiFi-CSを紹介する。
ビジュアルグラウンドティングは2D/3D空間のオブジェクトと自然言語入力を関連付け、クローズドとオープンボキャブラリの2つのシナリオで研究されている。
7-DOFロボットアームを用いた実世界RGS実験によるアプローチの有効性を検証し、15台のテーブルトップシーンで90.33%の視覚的接地精度を達成した。
論文 参考訳(メタデータ) (2024-09-16T15:50:39Z) - Language-Driven 6-DoF Grasp Detection Using Negative Prompt Guidance [13.246380364455494]
乱れ点雲における言語駆動型6-DoFグリップ検出のための新しい手法を提案する。
提案した負のプロンプト戦略は、望ましくない物体から遠ざかりながら、検出プロセスを所望の物体に向ける。
そこで本手法では,ロボットに自然言語で目的の物体を把握できるように指示するエンド・ツー・エンド・エンドのフレームワークを実現する。
論文 参考訳(メタデータ) (2024-07-18T18:24:51Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - PROGrasp: Pragmatic Human-Robot Communication for Object Grasping [22.182690439449278]
対話型オブジェクトグラスピング(IOG)は、人間とロボットの自然言語による対話を通じて、望ましいオブジェクトを識別し、把握するタスクである。
Pragmatic-IOG タスクとそれに対応するデータセット Intention-oriented Multi-Modal Dialogue (IM-Dial) を導入する。
Prograspは、視覚的なグラウンドニング、質問、オブジェクトの把握、そして最も重要なのは、実用的推論の解答解釈のモジュールを組み込むことで、Pragmatic-IOGを実行する。
論文 参考訳(メタデータ) (2023-09-14T14:45:47Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Learning 6-DoF Object Poses to Grasp Category-level Objects by Language
Instructions [74.63313641583602]
本稿では,既知カテゴリから把握する任意のオブジェクトのタスクを,自由形式の言語命令を用いて検討する。
我々はこれらの規律を、人間とロボットの相互作用に不可欠なオープンチャレンジにまとめる。
言語誘導型6-DoFカテゴリーレベルの物体位置定位モデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T04:25:14Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。