Fugu-MT 論文翻訳(概要): GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding

論文の概要: GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding

arxiv url: http://arxiv.org/abs/2411.19626v1
Date: Fri, 29 Nov 2024 11:23:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.994538
Title: GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding
Title（参考訳）: GREAT: オープンボキャブラリ3次元物体収差グラウンドのための幾何学的意図的協調推論
Authors: Yawen Shao, Wei Zhai, Yuhang Yang, Hongchen Luo, Yang Cao, Zheng-Jun Zha,
Abstract要約: Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。 GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
参考スコア（独自算出の注目度）: 53.42728468191711
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-Vocabulary 3D object affordance grounding aims to anticipate ``action possibilities'' regions on 3D objects with arbitrary instructions, which is crucial for robots to generically perceive real scenarios and respond to operational changes. Existing methods focus on combining images or languages that depict interactions with 3D geometries to introduce external interaction priors. However, they are still vulnerable to a limited semantic space by failing to leverage implied invariant geometries and potential interaction intentions. Normally, humans address complex tasks through multi-step reasoning and respond to diverse situations by leveraging associative and analogical thinking. In light of this, we propose GREAT (GeometRy-intEntion collAboraTive inference) for Open-Vocabulary 3D Object Affordance Grounding, a novel framework that mines the object invariant geometry attributes and performs analogically reason in potential interaction scenarios to form affordance knowledge, fully combining the knowledge with both geometries and visual contents to ground 3D object affordance. Besides, we introduce the Point Image Affordance Dataset v2 (PIADv2), the largest 3D object affordance dataset at present to support the task. Extensive experiments demonstrate the effectiveness and superiority of GREAT. Code and dataset are available at project.
Abstract（参考訳）: Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクトの「アクション可能性」領域を予測することを目的としている。既存の手法では、外部インタラクションの事前を導入するために、3Dジオメトリとのインタラクションを描写する画像や言語を組み合わせることに重点を置いている。しかし、インプリッド不変な測地や潜在的な相互作用の意図を利用できないため、限定的な意味空間に対して脆弱である。通常、人間は多段階の推論を通じて複雑なタスクに対処し、連想的思考と類推的思考を活用することで様々な状況に対応する。そこで我々は,GREAT (GeometRy-intEntion collAboraTive inference) for Open-Vocabulary 3D Object Affordance Grounding, a novel framework that mines the object invariant geometry attributes and performed analogly reason in potential interaction scenarios to form affordance knowledge, fully combined the knowledge with the geometries and visual contents to ground 3D object affordance。さらに,現在最大の3Dオブジェクト割当データセットであるPoint Image Affordance Dataset v2 (PIADv2)を導入してタスクをサポートする。大規模な実験は、GREATの有効性と優越性を実証している。コードとデータセットはプロジェクトから入手可能だ。

関連論文リスト

IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。 AugReferは3次元視覚的接地を前進させる新しい手法である。
論文参考訳（メタデータ） (2025-01-16T09:57:40Z)
Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文参考訳（メタデータ） (2024-10-09T19:37:01Z)
Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文参考訳（メタデータ） (2024-09-29T10:46:19Z)
Learning 2D Invariant Affordance Knowledge for 3D Affordance Grounding [12.347557379925039]
我々はtextbf-textbfImage Guided Invariant-textbfFeature-Aware 3D textbfAffordance textbfGrounding frameworkを紹介した。複数の人間と物体の相互作用画像に共通する相互作用パターンを同定することにより、3Dオブジェクトの空き領域を推定する。
論文参考訳（メタデータ） (2024-08-23T12:27:33Z)
3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。 3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T09:33:25Z)
Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文参考訳（メタデータ） (2023-03-18T15:37:35Z)
Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文参考訳（メタデータ） (2021-07-29T12:30:39Z)
VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文参考訳（メタデータ） (2021-06-28T07:47:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。