論文の概要: 3D-IDE: 3D Implicit Depth Emergent
- arxiv url: http://arxiv.org/abs/2604.03296v1
- Date: Sat, 28 Mar 2026 00:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.477122
- Title: 3D-IDE: 3D Implicit Depth Emergent
- Title(参考訳): 3D-IDE:3Dインプット奥行き創発
- Authors: Chushan Zhang, Ruihan Lu, Jinguang Tong, Yikai Wang, Hongdong Li,
- Abstract要約: 3D-Implicit Depth Emergenceは、幾何学的自己視覚から派生した創発的特性として3D知覚を再構成する手法である。
本手法により,高密度領域において3次元知覚が暗黙的に出現し,不連続な特徴を呈することができる。
提案手法は,様々な下流タスクにおいて高い性能を維持しつつ,推論遅延を55%削減する。
- 参考スコア(独自算出の注目度): 45.72771473431863
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Leveraging 3D information within Multimodal Large Language Models (MLLMs) has recently shown significant advantages for indoor scene understanding. However, existing methods, including those using explicit ground-truth 3D positional encoding and those grafting external 3D foundation models for implicit geometry, struggle with the trade-off in 2D-3D representation fusion, leading to suboptimal deployment. To this end, we propose 3D-Implicit Depth Emergence, a method that reframes 3D perception as an emergent property derived from geometric self-supervision rather than explicit encoding. Our core insight is the Implicit Geometric Emergence Principle: by strategically leveraging privileged geometric supervision through mechanisms like a fine-grained geometry validator and global representation constraints, we construct an information bottleneck. This bottleneck forces the model to maximize the mutual information between visual features and 3D structures, allowing 3D awareness to emerge naturally within a unified visual representation. Unlike existing approaches, our method enables 3D perception to emerge implicitly, disentangling features in dense regions and, crucially, eliminating depth and pose dependencies during inference with zero latency overhead. This paradigm shift from external grafting to implicit emergence represents a fundamental rethinking of 3D knowledge integration in visual-language models. Extensive experiments demonstrate that our method surpasses SOTA on multiple 3D scene understanding benchmarks. Our approach achieves a 55% reduction in inference latency while maintaining strong performance across diverse downstream tasks, underscoring the effectiveness of meticulously designed auxiliary objectives for dependency-free 3D understanding. Source code can be found at github.com/ChushanZhang/3D-IDE.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)内の3D情報を活用することで,屋内シーンの理解に大きなメリットが示された。
しかし、明示的な地上3D位置符号化や、暗黙幾何学のための外部3D基礎モデルを移植する手法を含む既存の手法は、2D-3D表現融合のトレードオフと競合し、準最適配置に繋がる。
この目的のために,3D-Implicit Depth Emergenceを提案する。これは3D知覚を明示的な符号化ではなく,幾何学的自己スーパービジョンから派生した創発的特性として再構成する手法である。
我々の中心となる洞察は、インプリシット幾何学的創発原理(Implicit Geometric Emergence Principle)である。
このボトルネックは、モデルに視覚的特徴と3D構造の間の相互情報を最大化させ、3D認識を統一された視覚的表現の中に自然に現われるようにする。
既存の手法とは異なり,本手法では,高密度領域における3次元認識が暗黙的に出現し,奥行きをなくし,遅延オーバーヘッドがゼロな推論中に依存性を生じさせる。
外部グラフトから暗黙の出現へのパラダイムシフトは、視覚言語モデルにおける3次元知識統合の基本的な再考を表している。
大規模な実験により,本手法は複数の3次元シーン理解ベンチマークにおいてSOTAを超えることが示された。
提案手法は, 様々な下流タスクにおいて高い性能を維持しつつ, 55%の推論遅延を低減し, 依存性のない3次元理解のための精密に設計された補助目標の有効性を実証する。
ソースコードはgithub.com/ChushanZhang/3D-IDEで見ることができる。
関連論文リスト
- Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。
GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-19T17:59:58Z) - OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder [90.8453349494245]
本研究では,コヒーレントな3次元表現空間内で直接拡散を行うOneWorldを提案する。
OneWorldは、最先端の2Dベースの方法と比較して、クロスビューの一貫性に優れた高品質な3Dシーンを生成する。
論文 参考訳(メタデータ) (2026-03-17T03:43:37Z) - EA3D: Online Open-World 3D Object Extraction from Streaming Videos [55.48835711373918]
オープンワールド3Dオブジェクト抽出のための統合オンラインフレームワークであるExtractAnything3D(EA3D)を提案する。
ストリーミングビデオが与えられると、EA3Dは視覚言語と2D視覚基盤エンコーダを使用して各フレームを動的に解釈し、オブジェクトレベルの知識を抽出する。
リカレントな共同最適化モジュールは、モデルの関心領域への注意を向け、幾何学的再構成と意味的理解の両面を同時に強化する。
論文 参考訳(メタデータ) (2025-10-29T03:56:41Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。