論文の概要: Where, Not What: Compelling Video LLMs to Learn Geometric Causality for 3D-Grounding
- arxiv url: http://arxiv.org/abs/2510.17034v1
- Date: Sun, 19 Oct 2025 22:40:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.257121
- Title: Where, Not What: Compelling Video LLMs to Learn Geometric Causality for 3D-Grounding
- Title(参考訳): 3Dグラウンドの幾何学的因果関係を学習するためにビデオLLMをコンパイルする
- Authors: Yutong Zhong,
- Abstract要約: この問題に対処するために,What-Where Representation Re-Forming (W2R2) と呼ばれる新しいトレーニングフレームワークを提案する。
提案手法は,2次元特徴を「何」識別のための意味的ビーコン,3次元特徴を「Where」ローカライゼーションのための空間的アンカーとして指定することにより,モデルの内部空間を根本的に改善する。
ScanReferとScanQAで行った実験では、W2R2の有効性が示され、ローカライゼーションの精度とロバスト性が大きく向上した。
- 参考スコア(独自算出の注目度): 0.8883733362171032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal 3D grounding has garnered considerable interest in Vision-Language Models (VLMs) \cite{yin2025spatial} for advancing spatial reasoning in complex environments. However, these models suffer from a severe "2D semantic bias" that arises from over-reliance on 2D image features for coarse localization, largely disregarding 3D geometric inputs and resulting in suboptimal fusion performance. In this paper, we propose a novel training framework called What-Where Representation Re-Forming (W2R2) to tackle this issue via disentangled representation learning and targeted shortcut suppression. Our approach fundamentally reshapes the model's internal space by designating 2D features as semantic beacons for "What" identification and 3D features as spatial anchors for "Where" localization, enabling precise 3D grounding without modifying inference architecture. Key components include a dual-objective loss function with an Alignment Loss that supervises fused predictions using adapted cross-entropy for multimodal synergy, and a Pseudo-Label Loss that penalizes overly effective 2D-dominant pseudo-outputs via a margin-based mechanism. Experiments conducted on ScanRefer and ScanQA demonstrate the effectiveness of W2R2, with significant gains in localization accuracy and robustness, particularly in cluttered outdoor scenes.
- Abstract(参考訳): マルチモーダル3Dグラウンドリングは、複雑な環境での空間的推論を促進するためにビジョン・ランゲージ・モデル (VLMs) \cite{yin2025spatial} に大きな関心を寄せている。
しかし、これらのモデルは、粗い局所化のための2次元画像の特徴への過度な信頼から生じる重度の「2次元意味バイアス」に悩まされ、3次元幾何学的入力をほとんど無視し、準最適融合性能をもたらす。
本稿では,不整合表現学習とショートカット抑制によってこの問題に対処する,What-Where Representation Re-Forming (W2R2) と呼ばれる新しいトレーニングフレームワークを提案する。
提案手法は,2次元特徴を「何」識別のための意味ビーコン,および3次元特徴を「Where」ローカライゼーションのための空間アンカーとして指定することにより,モデルの内部空間を根本的に改善し,推論アーキテクチャを変更することなく正確な3次元グラウンドを可能にする。
鍵となるコンポーネントは、多モードのシナジーに適応したクロスエントロピーを用いた融合予測を監督するアライメントロスを持つ双対対象損失関数と、マージンベースのメカニズムによって過度に有効な2D優位な擬似出力をペナルライズする擬似出力であるPseudo-Label Lossである。
ScanReferとScanQAで行った実験ではW2R2の有効性が示され、特に散在した屋外シーンにおいて、局所化精度とロバスト性が大きく向上した。
関連論文リスト
- Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human
Mesh Recovery [84.67823511418334]
本稿では,3次元メッシュ復元のためのTRansformersフレームワークを用いた3次元ジョイントコントラスト学習について述べる。
提案手法は,2D$&$3D対応結果を得るために,2Dおよび3D表現を融合するエンコーダ・デコーダ変換器アーキテクチャを含む。
論文 参考訳(メタデータ) (2023-07-31T02:58:58Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR
Segmentation [81.02742110604161]
大規模運転シーンのLiDARセグメンテーションのための最先端の手法は、しばしば点雲を2次元空間に投影し、2D畳み込みによって処理する。
そこで我々は,3次元幾何学的パタンを探索するために,円筒分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
提案手法はセマンティックKITTIのリーダーボードにおいて第1位を獲得し,既存のnuScenesの手法を約4%のマージンで上回っている。
論文 参考訳(メタデータ) (2020-11-19T18:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。