論文の概要: Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions
- arxiv url: http://arxiv.org/abs/2504.04744v1
- Date: Mon, 07 Apr 2025 05:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:13:27.373368
- Title: Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions
- Title(参考訳): 言語指導, 視覚観察, インタラクションによる3次元物体のグラウンド化
- Authors: He Zhu, Quyu Kong, Kechun Xu, Xunlong Xia, Bing Deng, Jieping Ye, Rong Xiong, Yue Wang,
- Abstract要約: 本稿では,言語指導,視覚的観察,インタラクションに基づく3次元オブジェクトの可利用性に基づく新しいタスクを提案する。
LMAffordance3Dは,最初のマルチモーダルな言語誘導型3Dアベイランスグラウンドティングネットワークである。
- 参考スコア(独自算出の注目度): 43.784500616459304
- License:
- Abstract: Grounding 3D object affordance is a task that locates objects in 3D space where they can be manipulated, which links perception and action for embodied intelligence. For example, for an intelligent robot, it is necessary to accurately ground the affordance of an object and grasp it according to human instructions. In this paper, we introduce a novel task that grounds 3D object affordance based on language instructions, visual observations and interactions, which is inspired by cognitive science. We collect an Affordance Grounding dataset with Points, Images and Language instructions (AGPIL) to support the proposed task. In the 3D physical world, due to observation orientation, object rotation, or spatial occlusion, we can only get a partial observation of the object. So this dataset includes affordance estimations of objects from full-view, partial-view, and rotation-view perspectives. To accomplish this task, we propose LMAffordance3D, the first multi-modal, language-guided 3D affordance grounding network, which applies a vision-language model to fuse 2D and 3D spatial features with semantic features. Comprehensive experiments on AGPIL demonstrate the effectiveness and superiority of our method on this task, even in unseen experimental settings. Our project is available at https://sites.google.com/view/lmaffordance3d.
- Abstract(参考訳): グラウンド・3Dオブジェクト・アベイランス(Grounding 3D object affordance)は、物体を操作可能な3D空間に配置するタスクであり、知覚と動作をインボディード・インテリジェンスに結びつける。
例えば、インテリジェントロボットの場合、オブジェクトの余裕を正確に把握し、人間の指示に従ってそれを把握する必要がある。
本稿では,認知科学に触発された言語指導,視覚的観察,インタラクションに基づく3Dオブジェクトの空き度に基づく新しいタスクを提案する。
提案したタスクをサポートするために,AGPIL(Points, Images, Language instructions)を用いたAffordance Groundingデータセットを収集する。
3次元物理の世界では、観察方向、物体回転、空間閉塞により、物体の部分的な観察しか得られない。
このデータセットには、フルビュー、パーシャルビュー、ローテーションビューの観点からのオブジェクトの空き時間推定が含まれている。
この課題を達成するために,LMAffordance3Dを提案する。LMAffordance3Dは,視覚言語モデルを用いて2次元および3次元空間特徴と意味的特徴を融合する,マルチモーダルな言語誘導型3Dアベイランスグラウンドティングネットワークである。
AGPILに関する総合的な実験は、未確認の実験環境においても、本課題における本手法の有効性と優位性を実証している。
私たちのプロジェクトはhttps://sites.google.com/view/lmaffordance3d.comで利用可能です。
関連論文リスト
- GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - Functionality understanding and segmentation in 3D scenes [6.1744362771344]
Fun3DUは、3Dシーンで機能を理解するために設計された最初のアプローチである。
Fun3DUは言語モデルを使用して、Chain-of-Thought推論を通じてタスク記述を解析する。
我々はFun3DUをSceneFun3D上で評価する。
論文 参考訳(メタデータ) (2024-11-25T11:57:48Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Semantic Abstraction: Open-World 3D Scene Understanding from 2D
Vision-Language Models [17.606199768716532]
オープンセットの語彙とドメイン外視覚入力を用いて,エージェントが自身の3D環境を判断する必要があるタスクのファミリーである,オープンワールドの3Dシーン理解について検討する。
本稿では,2次元視覚言語モデルに新しい空間能力を付加したセマンティック抽象化(Semantic Abstraction, SemAbs)を提案する。
オープンワールド3Dシーン理解タスクにおけるSemAbsの有用性を示す。
論文 参考訳(メタデータ) (2022-07-23T13:10:25Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。