論文の概要: Language and Geometry Grounded Sparse Voxel Representations for Holistic Scene Understanding
- arxiv url: http://arxiv.org/abs/2602.15734v1
- Date: Tue, 17 Feb 2026 17:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.137298
- Title: Language and Geometry Grounded Sparse Voxel Representations for Holistic Scene Understanding
- Title(参考訳): 言語と幾何学 立体的場面理解のためのスパースボクセル表現
- Authors: Guile Wu, David Huang, Bingbing Liu, Dongfeng Bai,
- Abstract要約: 既存の3Dシーン理解手法は、主に2D基礎モデルから3D特徴体に言語特徴を蒸留する。
言語と幾何学を基礎としたスパースボクセル表現を利用して、外観、意味論、幾何学を包括的にモデル化する新しいアプローチを提案する。
本手法は,全体像の理解と再構築における最先端手法と比較して,全体的な性能を向上する。
- 参考スコア(独自算出の注目度): 22.218083641125137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing 3D open-vocabulary scene understanding methods mostly emphasize distilling language features from 2D foundation models into 3D feature fields, but largely overlook the synergy among scene appearance, semantics, and geometry. As a result, scene understanding often deviates from the underlying geometric structure of scenes and becomes decoupled from the reconstruction process. In this work, we propose a novel approach that leverages language and geometry grounded sparse voxel representations to comprehensively model appearance, semantics, and geometry within a unified framework. Specifically, we use 3D sparse voxels as primitives and employ an appearance field, a density field, a feature field, and a confidence field to holistically represent a 3D scene. To promote synergy among the appearance, density, and feature fields, we construct a feature modulation module and distill language features from a 2D foundation model into our 3D scene model. In addition, we integrate geometric distillation into feature field distillation to transfer geometric knowledge from a geometry foundation model to our 3D scene representations via depth correlation regularization and pattern consistency regularization. These components work together to synergistically model the appearance, semantics, and geometry of the 3D scene within a unified framework. Extensive experiments demonstrate that our approach achieves superior overall performance compared with state-of-the-art methods in holistic scene understanding and reconstruction.
- Abstract(参考訳): 既存の3Dオープン語彙シーン理解手法は、主に2D基礎モデルから3D特徴体への言語特徴の蒸留を強調するが、シーンの外観、セマンティクス、幾何学の相乗効果は概ね見落としている。
その結果、シーン理解はしばしばシーンの基本的な幾何学的構造から逸脱し、再構築プロセスから切り離される。
本研究では,言語と幾何学を基盤としたスパースボクセル表現を利用して,統一された枠組み内での外観,意味,幾何学を包括的にモデル化する手法を提案する。
具体的には, プリミティブとして3次元スパースボクセルを使用し, 外観場, 密度場, 特徴場, 信頼場を用いて, 3次元シーンを水平に表現する。
外観,密度,特徴場の相乗効果を促進するために,2次元基礎モデルから3次元シーンモデルに特徴変調モジュールを構築し,言語特徴を蒸留する。
さらに,幾何蒸留を特徴場蒸留に統合し,幾何学基礎モデルから深度相関正則化とパターン整合正則化による3次元シーン表現へ幾何学的知識を伝達する。
これらのコンポーネントは、統合されたフレームワーク内の3Dシーンの外観、意味論、幾何学を相乗的にモデル化するために協力する。
大規模な実験により,本手法は全体像の理解と再構築における最先端手法と比較して,優れた総合的性能を達成できることが示された。
関連論文リスト
- EA3D: Online Open-World 3D Object Extraction from Streaming Videos [55.48835711373918]
オープンワールド3Dオブジェクト抽出のための統合オンラインフレームワークであるExtractAnything3D(EA3D)を提案する。
ストリーミングビデオが与えられると、EA3Dは視覚言語と2D視覚基盤エンコーダを使用して各フレームを動的に解釈し、オブジェクトレベルの知識を抽出する。
リカレントな共同最適化モジュールは、モデルの関心領域への注意を向け、幾何学的再構成と意味的理解の両面を同時に強化する。
論文 参考訳(メタデータ) (2025-10-29T03:56:41Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - Shape from Semantics: 3D Shape Generation from Multi-View Semantics [30.969299308083723]
既存の3D再構成手法では, 3次元画像, 3次元点雲, 形状輪郭, 単一意味論などのガイダンスを用いて3次元表面を復元する。
図形や外観が、異なる視点から見ると、与えられたテキストの意味と一致した3Dモデルを作成することを目的として、新しい3Dモデリングタスク「Shape from Semantics'」を提案する。
論文 参考訳(メタデータ) (2025-02-01T07:51:59Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。