論文の概要: Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in
Clutter
- arxiv url: http://arxiv.org/abs/2311.05779v1
- Date: Thu, 9 Nov 2023 22:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:20:59.800391
- Title: Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in
Clutter
- Title(参考訳): 言語誘導型ロボットの把持--clutterにおけるクリップ型参照把持合成
- Authors: Georgios Tziafas, Yucheng Xu, Arushi Goel, Mohammadreza Kasaei, Zhibin
Li, Hamidreza Kasaei
- Abstract要約: 本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。
既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。
本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
- 参考スコア(独自算出の注目度): 14.489086924126253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots operating in human-centric environments require the integration of
visual grounding and grasping capabilities to effectively manipulate objects
based on user instructions. This work focuses on the task of referring grasp
synthesis, which predicts a grasp pose for an object referred through natural
language in cluttered scenes. Existing approaches often employ multi-stage
pipelines that first segment the referred object and then propose a suitable
grasp, and are evaluated in private datasets or simulators that do not capture
the complexity of natural indoor scenes. To address these limitations, we
develop a challenging benchmark based on cluttered indoor scenes from OCID
dataset, for which we generate referring expressions and connect them with
4-DoF grasp poses. Further, we propose a novel end-to-end model (CROG) that
leverages the visual grounding capabilities of CLIP to learn grasp synthesis
directly from image-text pairs. Our results show that vanilla integration of
CLIP with pretrained models transfers poorly in our challenging benchmark,
while CROG achieves significant improvements both in terms of grounding and
grasping. Extensive robot experiments in both simulation and hardware
demonstrate the effectiveness of our approach in challenging interactive object
grasping scenarios that include clutter.
- Abstract(参考訳): 人間中心の環境で動くロボットは、視覚的な接地と把握機能の統合を必要とし、ユーザの指示に基づいてオブジェクトを効果的に操作する。
本研究は,自然言語で参照される物体の把持姿勢を予測する「把持合成」の課題に焦点を当てたものである。
既存のアプローチでは、参照したオブジェクトを最初に分割し、適切な把握を提案し、自然の屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価するマルチステージパイプラインが採用されている。
これらの制約に対処するために、ocidデータセットから散らばった屋内シーンに基づく挑戦的なベンチマークを開発し、参照表現を生成し、それらを4自由度把握ポーズで接続する。
さらに,クリップの視覚的接地機能を利用して,画像テキストペアから直接把握合成を学習する新しいエンド・ツー・エンドモデル(crog)を提案する。
以上の結果から,CLIPと事前訓練したモデルとのバニラ統合は,我々の挑戦的なベンチマークでは不十分であることがわかった。
シミュレーションとハードウェアの両方における広範囲なロボット実験は,clutterを含むインタラクティブな物体把握シナリオに対する,我々のアプローチの有効性を実証する。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity
Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。
視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。
実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T14:12:32Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Grounding Physical Concepts of Objects and Events Through Dynamic Visual
Reasoning [84.90458333884443]
本稿では、物理オブジェクトやイベントをビデオや言語から基盤とする統合フレームワークであるDynamic Concept Learner(DCL)を紹介する。
dclは、フレーム、グランドビジュアルプロパティ、物理イベントのオブジェクトを検出し、関連付けることができ、イベント間の因果関係を理解し、将来の予測と偽りの予測を行い、これらのプレゼンテーションをクエリに利用することができる。
DCLは、地上トラス属性や衝突ラベルをトレーニング用シミュレーションから使用することなく、困難な因果的ビデオ推論データセットであるCLEVRERで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-30T17:59:48Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics [33.30312206728974]
本稿では,シーン認識タスクの学習データを生成するための合成パイプラインについて述べる。
本手法は,物理シミュレーションを用いて,物体メッシュを物理的に現実的で密集したシーンに配置する。
私たちのパイプラインは、ディープニューラルネットワークのトレーニング中にオンラインで実行できます。
論文 参考訳(メタデータ) (2020-05-12T10:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。