論文の概要: Part-Aware Open-Vocabulary 3D Affordance Grounding via Prototypical Semantic and Geometric Alignment
- arxiv url: http://arxiv.org/abs/2603.17647v1
- Date: Wed, 18 Mar 2026 12:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.686012
- Title: Part-Aware Open-Vocabulary 3D Affordance Grounding via Prototypical Semantic and Geometric Alignment
- Title(参考訳): 原型的意味的・幾何学的アライメントによる部分的オープンボキャブラリ3次元グラウンドディング
- Authors: Dongqiang Gou, Xuming He,
- Abstract要約: インテリジェンスと人間とAIの相互作用を具体化するためには、自然言語の問題を3Dオブジェクト内の機能的に関連のある領域に接地することが不可欠である。
そこで本稿では,オープンな3次元空間における意味的表現と幾何学的表現を両立させる2段階のクロスモーダルフレームワークを提案する。
提案手法の有効性を,新たに導入されたベンチマークと2つの既存ベンチマークで検証し,既存手法と比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 15.545435413394882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding natural language questions to functionally relevant regions in 3D objects -- termed language-driven 3D affordance grounding -- is essential for embodied intelligence and human-AI interaction. Existing methods, while progressing from label-based to language-driven approaches, still face challenges in open-vocabulary generalization, fine-grained geometric alignment, and part-level semantic consistency. To address these issues, we propose a novel two-stage cross-modal framework that enhances both semantic and geometric representations for open-vocabulary 3D affordance grounding. In the first stage, large language models generate part-aware instructions to recover missing semantics, enabling the model to link semantically similar affordances. In the second stage, we introduce two key components: Affordance Prototype Aggregation (APA), which captures cross-object geometric consistency for each affordance, and Intra-Object Relational Modeling (IORM), which refines geometric differentiation within objects to support precise semantic alignment. We validate the effectiveness of our method through extensive experiments on a newly introduced benchmark, as well as two existing benchmarks, demonstrating superior performance in comparison with existing methods.
- Abstract(参考訳): 自然言語の問題を3Dオブジェクト内の機能的に関連のある領域(言語駆動型3Dアベイランスグラウンドディングと呼ばれる)に接地することは、インテリジェンスと人間とAIの相互作用を具現化する上で不可欠である。
既存の手法はラベルベースのアプローチから言語駆動アプローチへと進歩する一方で、オープン語彙の一般化、きめ細かい幾何学的アライメント、部分レベルの意味的一貫性といった課題に直面している。
これらの課題に対処するため,オープンな3次元空間の空間化のための意味的表現と幾何学的表現を両立させる2段階のクロスモーダルフレームワークを提案する。
最初の段階では、大きな言語モデルは、欠落したセマンティクスを回復するための部分認識命令を生成し、セマンティクスに類似した価格のリンクを可能にする。
第2段階では、各アプライアンスに対する相互対象の幾何学的整合性を捉えるAffordance Prototype Aggregation (APA) と、正確な意味的アライメントをサポートするためにオブジェクト内の幾何学的分化を洗練するIntra-Object Relational Modeling (IORM) という2つの重要なコンポーネントを紹介します。
提案手法の有効性を,新たに導入されたベンチマークと2つの既存ベンチマークで検証し,既存手法と比較して優れた性能を示す。
関連論文リスト
- AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis [50.793806818677716]
AffordGraspは、物理的に安定し、セマンティックに忠実な人間の握りを高精度に生成する。
AffordGraspは、手ポーズの空きを意識した潜在表現を二重条件拡散プロセスに統合する。
AffordGraspはHO-3D, OakInk, GRAB, AffordPoseの4つの命令強化ベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-09T06:56:35Z) - Universal 3D Shape Matching via Coarse-to-Fine Language Guidance [8.772996147679729]
UniMatchは、強い非等尺形状間の密接なセマンティック対応を構築するためのセマンティックアウェアで粗いフレームワークである。
本手法は普遍的対象カテゴリに対して汎用的であり,事前定義された部分提案を必要としない。
論文 参考訳(メタデータ) (2026-02-22T10:07:03Z) - Learning Human Visual Attention on 3D Surfaces through Geometry-Queried Semantic Priors [0.0]
本稿では,幾何処理と意味認識の相互作用を形式化する2重ストリームアーキテクチャであるSemGeo-AttentionNetを紹介する。
我々は、強化学習を通じて時間的スキャンパス生成にフレームワークを拡張した。
SAL3D, NUS3D, 3DVAデータセットの評価は大幅に改善されている。
論文 参考訳(メタデータ) (2026-02-06T06:15:38Z) - Hierarchical Neural Semantic Representation for 3D Semantic Correspondence [72.8101601086805]
階層型ニューラルセマンティック表現(HNSR)を設計し,高次構造と多分解能局所幾何学的特徴を捉える。
第2に,グローバルなセマンティック特徴を用いた粗いセマンティック対応を確立する,プログレッシブなグローバル-ローカルマッチング戦略を設計する。
第3に,本フレームワークはトレーニングフリーで,様々なトレーニング済みの3D生成バックボーンと広範囲に互換性があり,多様な形状カテゴリにまたがる強力な一般化が示されている。
論文 参考訳(メタデータ) (2025-09-22T07:23:07Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。