論文の概要: Hi-LSplat: Hierarchical 3D Language Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2506.06822v1
- Date: Sat, 07 Jun 2025 14:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.499738
- Title: Hi-LSplat: Hierarchical 3D Language Gaussian Splatting
- Title(参考訳): Hi-LSplat: 階層型3D言語ガウススプラッティング
- Authors: Chenlu Zhan, Yufei Zhang, Gaoang Wang, Hongwei Wang,
- Abstract要約: Hi-LSplatは3Dオープン語彙クエリのためのビュー一貫性のある階層型言語ガウシアンスプラッティングである。
2つの階層的なセマンティックデータセットを構築し、異なるセマンティックレベルを識別するモデルの能力をよりよく評価する。
- 参考スコア(独自算出の注目度): 11.810729064982372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling 3D language fields with Gaussian Splatting for open-ended language queries has recently garnered increasing attention. However, recent 3DGS-based models leverage view-dependent 2D foundation models to refine 3D semantics but lack a unified 3D representation, leading to view inconsistencies. Additionally, inherent open-vocabulary challenges cause inconsistencies in object and relational descriptions, impeding hierarchical semantic understanding. In this paper, we propose Hi-LSplat, a view-consistent Hierarchical Language Gaussian Splatting work for 3D open-vocabulary querying. To achieve view-consistent 3D hierarchical semantics, we first lift 2D features to 3D features by constructing a 3D hierarchical semantic tree with layered instance clustering, which addresses the view inconsistency issue caused by 2D semantic features. Besides, we introduce instance-wise and part-wise contrastive losses to capture all-sided hierarchical semantic representations. Notably, we construct two hierarchical semantic datasets to better assess the model's ability to distinguish different semantic levels. Extensive experiments highlight our method's superiority in 3D open-vocabulary segmentation and localization. Its strong performance on hierarchical semantic datasets underscores its ability to capture complex hierarchical semantics within 3D scenes.
- Abstract(参考訳): オープンエンド言語クエリのためのガウススプラッティングを用いた3D言語フィールドのモデリングが最近注目を集めている。
しかし、最近の3DGSベースのモデルは、ビュー依存の2D基礎モデルを利用して3Dセマンティクスを洗練しているが、統一された3D表現が欠如しており、不整合が生じる。
さらに、固有のオープン語彙の課題は、オブジェクトとリレーショナル記述の不整合を引き起こし、階層的なセマンティック理解を妨げる。
本稿では、3次元オープン語彙クエリのためのビュー一貫性のある階層型言語ガウス語スプラッティングであるHi-LSplatを提案する。
ビュー一貫性を持つ3次元階層的セマンティクスを実現するために,まず,階層化されたインスタンスクラスタリングを備えた3次元階層的セマンティクスツリーを構築することで,2次元のセマンティクスから3次元のセマンティクスへ2D機能を引き上げる。
さらに、全側面の階層的意味表現をキャプチャするために、インスタンスワイドおよび部分コントラスト的損失を導入する。
特に、2つの階層的なセマンティックデータセットを構築し、異なるセマンティックレベルを識別するモデルの能力をよりよく評価する。
広汎な実験は,3次元開語彙区分けと局所化における手法の優位性を強調した。
階層的セマンティックデータセットの強力なパフォーマンスは、3Dシーン内で複雑な階層的セマンティックスをキャプチャする能力を示している。
関連論文リスト
- Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。
セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。
同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2025-05-30T16:06:32Z) - Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - Interpretable Single-View 3D Gaussian Splatting using Unsupervised Hierarchical Disentangled Representation Learning [46.85417907244265]
本稿では,粗い3Dセマンティクスと微粒な3Dセマンティクスの両方を発見するために,3DisGSと呼ばれる解釈可能な単一ビュー3DGSフレームワークを提案する。
本モデルでは,高品質かつ高速な再構成を保ちながら3次元のアンタングル化を実現する。
論文 参考訳(メタデータ) (2025-04-05T14:42:13Z) - ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。