論文の概要: Beyond Flatlands: Unlocking Spatial Intelligence by Decoupling 3D Reasoning from Numerical Regression
- arxiv url: http://arxiv.org/abs/2511.11239v2
- Date: Tue, 18 Nov 2025 15:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.680122
- Title: Beyond Flatlands: Unlocking Spatial Intelligence by Decoupling 3D Reasoning from Numerical Regression
- Title(参考訳): フラットランドを超えて:数値回帰から3D推論を分離することで空間的知性を解き放つ
- Authors: Zhongbin Guo, Jiahe Liu, Yushan Li, Wenyu Gao, Zhen Yang, Chenzhi Li, Xinyue Zhang, Ping Jian,
- Abstract要約: 既存の視覚言語モデル(VLM)は、現実世界の空間知能を理解するのに苦労している。
GEODEは2つの特別なプラグアンドプレイモジュールでメインVLMを拡張している。
これらのモジュールの相乗効果により、1.5Bパラメータモデルは高レベルのセマンティックディスパッチとして機能します。
- 参考スコア(独自算出の注目度): 12.590536117486257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Vision Language Models (VLMs) architecturally rooted in "flatland" perception, fundamentally struggle to comprehend real-world 3D spatial intelligence. This failure stems from a dual-bottleneck: input-stage conflict between computationally exorbitant geometric-aware encoders and superficial 2D-only features, and output-stage misalignment where discrete tokenizers are structurally incapable of producing precise, continuous numerical values. To break this impasse, we introduce GEODE (Geometric-Output and Decoupled-Input Engine), a novel architecture that resolves this dual-bottleneck by decoupling 3D reasoning from numerical generation. GEODE augments main VLM with two specialized, plug-and-play modules: Decoupled Rationale Module (DRM) that acts as spatial co-processor, aligning explicit 3D data with 2D visual features via cross-attention and distilling spatial Chain-of-Thought (CoT) logic into injectable Rationale Tokens; and Direct Regression Head (DRH), an "Embedding-as-Value" paradigm which routes specialized control tokens to a lightweight MLP for precise, continuous regression of scalars and 3D bounding boxes. The synergy of these modules allows our 1.5B parameter model to function as a high-level semantic dispatcher, achieving state-of-the-art spatial reasoning performance that rivals 7B+ models.
- Abstract(参考訳): 既存の視覚言語モデル(VLM)は、建築的に「平らな」知覚に根ざし、現実世界の3D空間知能を理解するのに根本的に苦労している。
この失敗は、2重ボトルネックに起因している: 計算的に外在する幾何認識エンコーダと表面上の2Dのみの特徴の間の入力ステージの競合、そして離散トークン化器が正確に連続的な数値を生成できないような出力ステージのミスアライメントである。
数値生成から3D推論を分離することにより,この双極子ネックを解決する新しいアーキテクチャであるGEODE(Geometric-Output and Decoupled-Input Engine)を導入する。
Decoupled Rationale Module (DRM) は空間コプロセッサとして機能し、明示的な3Dデータと空間的な2次元視覚的特徴を相互アテンションと蒸留して空間的チェイン・オブ・ソート(CoT)ロジックを注入可能なRationale Tokensに集約する。
これらのモジュールの相乗効果により、1.5Bパラメータモデルがハイレベルなセマンティックディスパッチとして機能し、7B+モデルと競合する最先端の空間推論性能を実現することができる。
関連論文リスト
- Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - Where, Not What: Compelling Video LLMs to Learn Geometric Causality for 3D-Grounding [0.8883733362171032]
この問題に対処するために,What-Where Representation Re-Forming (W2R2) と呼ばれる新しいトレーニングフレームワークを提案する。
提案手法は,2次元特徴を「何」識別のための意味的ビーコン,3次元特徴を「Where」ローカライゼーションのための空間的アンカーとして指定することにより,モデルの内部空間を根本的に改善する。
ScanReferとScanQAで行った実験では、W2R2の有効性が示され、ローカライゼーションの精度とロバスト性が大きく向上した。
論文 参考訳(メタデータ) (2025-10-19T22:40:18Z) - Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge [45.19482892758984]
Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。
我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。
さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
論文 参考訳(メタデータ) (2025-10-09T15:01:26Z) - Semantic Causality-Aware Vision-Based 3D Occupancy Prediction [63.752869043357585]
視覚に基づく3Dセマンティック占有予測は、3Dビジョンにおいて重要な課題である。
しかし、既存のメソッドは、しばしばモジュラーパイプラインに依存している。
本稿では,モジュール型2D-to-3Dトランスフォーメーションパイプラインの全体的,エンドツーエンドの監視を可能にする新たな因果損失を提案する。
論文 参考訳(メタデータ) (2025-09-10T08:29:22Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - CleverDistiller: Simple and Spatially Consistent Cross-modal Distillation [7.246959698735599]
CleverDistillerは、自己監督型の2D-to-3D KDフレームワークである。
セマンティックセグメンテーションと3Dオブジェクト検出の両方において、最大10% mIoUで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-12T22:18:29Z) - Global-Aware Monocular Semantic Scene Completion with State Space Models [25.621011183332094]
Monocular Semantic Scene Completion (MonoSSC)は、単一の画像から3D環境を再構成し、解釈する。
既存の手法は、しばしば畳み込みネットワーク(CNN)の局所受容領域によって制約される。
GA-MonoSSCは2次元画像領域と3次元空間の両方のグローバルコンテキストを効果的にキャプチャするMonoSSCのハイブリッドアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-09T11:55:40Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。