論文の概要: PC-CrossDiff: Point-Cluster Dual-Level Cross-Modal Differential Attention for Unified 3D Referring and Segmentation
- arxiv url: http://arxiv.org/abs/2603.17753v1
- Date: Wed, 18 Mar 2026 14:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.744742
- Title: PC-CrossDiff: Point-Cluster Dual-Level Cross-Modal Differential Attention for Unified 3D Referring and Segmentation
- Title(参考訳): PC-CrossDiff:一元化3次元参照とセグメント化のためのポイントクラスタデュアルレベルクロスモード差分注意
- Authors: Wenbin Tan, Jiawen Lin, Fangyong Wang, Yuan Xie, Yong Xie, Yachao Zhang, Yanyun Qu,
- Abstract要約: 3Dビジュアルグラウンディングは2つのコアタスクを通して自然言語参照表現をローカライズすることを目的としている: Referring Expression (3DREC)とReferring Expression (3DRES)
既存の手法は、暗黙の局所化キューの不十分な解析と、共起物体からの動的空間干渉の非効率な抑制という、複雑な多目的シーンにおいて2つの重要な課題に直面している。
PC-CrossDiffは3DRECと3DRESのための2レベルクロスモーダルアテンションアーキテクチャを備えた統合デュアルタスクフレームワークである。
- 参考スコア(独自算出の注目度): 40.5034963034718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Visual Grounding (3DVG) aims to localize the referent of natural language referring expressions through two core tasks: Referring Expression Comprehension (3DREC) and Segmentation (3DRES). While existing methods achieve high accuracy in simple, single-object scenes, they suffer from severe performance degradation in complex, multi-object scenes that are common in real-world settings, hindering practical deployment. Existing methods face two key challenges in complex, multi-object scenes: inadequate parsing of implicit localization cues critical for disambiguating visually similar objects, and ineffective suppression of dynamic spatial interference from co-occurring objects, resulting in degraded grounding accuracy. To address these challenges, we propose PC-CrossDiff, a unified dual-task framework with a dual-level cross-modal differential attention architecture for 3DREC and 3DRES. Specifically, the framework introduces: (i) Point-Level Differential Attention (PLDA) modules that apply bidirectional differential attention between text and point clouds, adaptively extracting implicit localization cues via learnable weights to improve discriminative representation; (ii) Cluster-Level Differential Attention (CLDA) modules that establish a hierarchical attention mechanism to adaptively enhance localization-relevant spatial relationships while suppressing ambiguous or irrelevant spatial relations through a localization-aware differential attention block. Our method achieves state-of-the-art performance on the ScanRefer, NR3D, and SR3D benchmarks. Notably, on the Implicit subsets of ScanRefer, it improves the Overall@0.50 score by +10.16% for the 3DREC task, highlighting its strong ability to parse implicit spatial cues.
- Abstract(参考訳): 3Dビジュアルグラウンドリング(3DVG)は、自然言語参照表現の参照を2つのコアタスク(Referring Expression Comprehension(3DREC)とSegmentation(3DRES))を通してローカライズすることを目的としている。
既存の手法は単純で単目的のシーンでは高い精度を達成するが、現実の環境で一般的な複雑で多目的のシーンでは深刻な性能劣化に悩まされ、実際の配置を妨げている。
既存の手法は、視覚的に類似した物体を曖昧にするためには、暗黙の局所化の不十分な解析が不可欠であり、共起物体からの動的空間干渉を効果的に抑制し、劣化した接地精度をもたらすという、複雑な多目的シーンにおいて2つの重要な課題に直面している。
これらの課題に対処するため,PC-CrossDiffを提案する。
具体的には、以下のフレームワークを紹介します。
一 テキストと点雲の双方向差分注意を適用し、学習可能な重みを通して暗黙の局所化手がかりを適応的に抽出し、識別表現を改善するPLDAモジュール
(II)クラスタレベル差分注意(CLDA)モジュールは、局所化関連空間関係を適応的に強化する階層的注意機構を確立し、局所化対応型差分注意ブロックを介して不明瞭または無関係な空間関係を抑える。
提案手法は, ScanRefer, NR3D, SR3Dベンチマーク上での最先端性能を実現する。
注目すべきは、ScanReferのImplicitサブセットにおいて、3DRECタスクの総合@0.50スコアを+10.16%向上させ、暗黙の空間的手がかりを解析する強力な能力を強調していることだ。
関連論文リスト
- Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation [91.2768117730855]
一般化された3D参照式(3D-GRES)は、記述が複数またはゼロのターゲットと一致する場合でも、自然言語に基づいて3Dシーン内のオブジェクトをローカライズする。
既存の方法はスパース・ポイント・クラウドにのみ依存しており、きめ細かい説明のためのリッチ・ビジュアル・セマンティクスが欠如している。
HCF-RESは2つの重要なイノベーションを持つマルチモーダルフレームワークである。
論文 参考訳(メタデータ) (2026-03-06T13:09:29Z) - Mono3DVG-EnSD: Enhanced Spatial-aware and Dimension-decoupled Text Encoding for Monocular 3D Visual Grounding [42.41930714202838]
CLIP-Guided Lexical Certainty Adapter (CLIP-LCA) と Dimension-Decoupled Module (D2M) の2つの主要なコンポーネントを統合する新しいフレームワーク Mono3DVG-EnSD を提案する。
特に,Far(Acc@0.5)の難易度を+13.54%向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-11-10T10:02:30Z) - Where, Not What: Compelling Video LLMs to Learn Geometric Causality for 3D-Grounding [0.8883733362171032]
この問題に対処するために,What-Where Representation Re-Forming (W2R2) と呼ばれる新しいトレーニングフレームワークを提案する。
提案手法は,2次元特徴を「何」識別のための意味的ビーコン,3次元特徴を「Where」ローカライゼーションのための空間的アンカーとして指定することにより,モデルの内部空間を根本的に改善する。
ScanReferとScanQAで行った実験では、W2R2の有効性が示され、ローカライゼーションの精度とロバスト性が大きく向上した。
論文 参考訳(メタデータ) (2025-10-19T22:40:18Z) - Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge [45.19482892758984]
Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。
我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。
さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
論文 参考訳(メタデータ) (2025-10-09T15:01:26Z) - Unified Representation Space for 3D Visual Grounding [18.652577474202015]
3Dビジュアルグラウンドは、テキスト記述に基づいて3Dシーン内のオブジェクトを識別することを目的としている。
既存の方法は、個別に訓練された視覚とテキストエンコーダに依存しており、2つのモードの間に大きなギャップがある。
本稿では,3DVGの統一表現空間を革新的に導入するUniSpace-3Dを提案する。
論文 参考訳(メタデータ) (2025-06-17T06:53:15Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Scene-Generalizable Interactive Segmentation of Radiance Fields [64.37093918762]
我々はSGISRF(Scene-Generalizable Interactive in Radiance Fields)の最初の試みを行う。
そこで本研究では,複数視点の2D画像に対して,対話的なユーザクリック数回しか表示されない,新しい(見えない)シーンの3Dオブジェクトセグメンテーションを実現するSGISRF手法を提案する。
多様なシーンをカバーする2つの実世界の挑戦的ベンチマーク実験は,1) 提案手法の有効性とシーン一般化性を示し,2) シーン固有の最適化を必要とする古典的手法と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2023-08-09T17:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。