論文の概要: LESV: Language Embedded Sparse Voxel Fusion for Open-Vocabulary 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2604.01388v1
- Date: Wed, 01 Apr 2026 20:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.971789
- Title: LESV: Language Embedded Sparse Voxel Fusion for Open-Vocabulary 3D Scene Understanding
- Title(参考訳): LESV:オープンボキャブラリ3次元シーン理解のための言語組み込みスパースボクセルフュージョン
- Authors: Fusang Wang, Nathan Piasco, Moussab Bennehar, Luis Roldão, Dzmitry Tsishkou, Fabien Moutarde,
- Abstract要約: 本稿では,Sparse Voxel Rasterization (SVRaster) を構造的,不随伴な幾何学表現として活用する新しいフレームワークを提案する。
これにより、決定論的で信頼性に配慮した特徴登録プロセスが可能となり、3DGSに共通する意味的出血アーティファクトが抑制される。
提案手法は,Open Vocabulary 3D Object Retrieval と Point Cloud Understanding ベンチマークの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 9.377694035678948
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in open-vocabulary 3D scene understanding heavily rely on 3D Gaussian Splatting (3DGS) to register vision-language features into 3D space. However, we identify two critical limitations in these approaches: the spatial ambiguity arising from unstructured, overlapping Gaussians which necessitates probabilistic feature registration, and the multi-level semantic ambiguity caused by pooling features over object-level masks, which dilutes fine-grained details. To address these challenges, we present a novel framework that leverages Sparse Voxel Rasterization (SVRaster) as a structured, disjoint geometry representation. By regularizing SVRaster with monocular depth and normal priors, we establish a stable geometric foundation. This enables a deterministic, confidence-aware feature registration process and suppresses the semantic bleeding artifact common in 3DGS. Furthermore, we resolve multi-level ambiguity by exploiting the emerging dense alignment properties of foundation model AM-RADIO, avoiding the computational overhead of hierarchical training methods. Our approach achieves state-of-the-art performance on Open Vocabulary 3D Object Retrieval and Point Cloud Understanding benchmarks, particularly excelling on fine-grained queries where registration methods typically fail.
- Abstract(参考訳): オープン語彙3Dシーン理解の最近の進歩は、視覚言語の特徴を3D空間に登録する3Dガウススプラッティング(3DGS)に大きく依存している。
しかし,これらアプローチでは,確率的特徴登録を必要とするガウス的重複や,細かな詳細を希釈するオブジェクトレベルのマスク上の特徴のプールによって生じる多層的意味的曖昧さという,非構造的かつ重なり合う空間的曖昧さの2つの限界が指摘されている。
これらの課題に対処するために,Sparse Voxel Rasterization (SVRaster) を構造化された非接合幾何学表現として活用する新しいフレームワークを提案する。
SVRasterを単分子深度と通常の先行値で正規化することにより、安定な幾何学的基礎を確立する。
これにより、決定論的で信頼性に配慮した特徴登録プロセスが可能となり、3DGSに共通する意味的出血アーティファクトが抑制される。
さらに, 基礎モデルAM-RADIOの高密度アライメント特性を活用し, 階層的学習手法の計算オーバーヘッドを回避することで, 多段階の曖昧さを解消する。
提案手法は,Open Vocabulary 3D Object Retrieval と Point Cloud Understanding ベンチマークにおける最先端のパフォーマンスを実現する。
関連論文リスト
- SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。
本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文 参考訳(メタデータ) (2025-02-27T12:29:44Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。