論文の概要: Polysemous Language Gaussian Splatting via Matching-based Mask Lifting
- arxiv url: http://arxiv.org/abs/2509.22225v1
- Date: Fri, 26 Sep 2025 11:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.395889
- Title: Polysemous Language Gaussian Splatting via Matching-based Mask Lifting
- Title(参考訳): マッチングに基づくマスクリフティングによる多文言語ガウススプティング
- Authors: Jiayu Ding, Xinpeng Liu, Zhiyi Pan, Shiqiang Long, Ge Li,
- Abstract要約: MUSplatは、機能の最適化を完全に放棄した、トレーニング不要のフレームワークである。
パイプラインは多粒性2Dマスクを3次元に生成し,各ガウス点に対する前景確率を推定し,初期対象群を形成する。
次に、これらの初期群のあいまいな境界を意味エントロピーと幾何学的不透明度を用いて最適化する。
- 参考スコア(独自算出の注目度): 16.769952481766445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lifting 2D open-vocabulary understanding into 3D Gaussian Splatting (3DGS) scenes is a critical challenge. However, mainstream methods suffer from three key flaws: (i) their reliance on costly per-scene retraining prevents plug-and-play application; (ii) their restrictive monosemous design fails to represent complex, multi-concept semantics; and (iii) their vulnerability to cross-view semantic inconsistencies corrupts the final semantic representation. To overcome these limitations, we introduce MUSplat, a training-free framework that abandons feature optimization entirely. Leveraging a pre-trained 2D segmentation model, our pipeline generates and lifts multi-granularity 2D masks into 3D, where we estimate a foreground probability for each Gaussian point to form initial object groups. We then optimize the ambiguous boundaries of these initial groups using semantic entropy and geometric opacity. Subsequently, by interpreting the object's appearance across its most representative viewpoints, a Vision-Language Model (VLM) distills robust textual features that reconciles visual inconsistencies, enabling open-vocabulary querying via semantic matching. By eliminating the costly per-scene training process, MUSplat reduces scene adaptation time from hours to mere minutes. On benchmark tasks for open-vocabulary 3D object selection and semantic segmentation, MUSplat outperforms established training-based frameworks while simultaneously addressing their monosemous limitations.
- Abstract(参考訳): 2Dのオープン語彙を3Dガウススプラッティング(3DGS)にリフティングすることは、重要な課題である。
しかし、主流の手法は3つの重大な欠陥に悩まされている。
一 修業費のかかる修業への依存が、プラグアンドプレイの実施を妨げていること。
(ii)制限的な単文的設計は、複雑で多概念的な意味論を表現できない。
(iii) 横断的なセマンティックな矛盾に対する脆弱性は、最終的なセマンティックな表現を損なう。
これらの制限を克服するために,機能最適化を完全に放棄したトレーニング不要のフレームワークであるMUSplatを導入する。
事前訓練された2Dセグメンテーションモデルを用いて、パイプラインは複数のグラニュラリティ2Dマスクを3Dに生成して持ち上げ、ガウス点毎に前景確率を推定して初期対象群を形成する。
次に、これらの初期群のあいまいな境界を意味エントロピーと幾何学的不透明度を用いて最適化する。
その後、オブジェクトの外観を最も代表的な視点で解釈することで、視覚言語モデル(VLM)は、視覚的不整合を解消し、セマンティックマッチングによるオープン語彙クエリを可能にする堅牢なテキスト特徴を蒸留する。
MUSplatは、シーンごとのトレーニングプロセスのコストを削減することで、シーン適応時間を数時間から数分に短縮する。
オープンな3Dオブジェクトの選択とセマンティックセグメンテーションのためのベンチマークタスクでは、MUSplatはトレーニングベースのフレームワークの確立に優れ、同時にモノセマンス制限に対処している。
関連論文リスト
- Beyond Averages: Open-Vocabulary 3D Scene Understanding with Gaussian Splatting and Bag of Embeddings [17.855913571198013]
本稿では,意味論における微分可能レンダリングを完全に回避するパラダイムシフト方式を提案する。
私たちの重要な洞察は、事前分解されたオブジェクトレベルのガウスを利用して、マルチビューCLIP機能アグリゲーションを通じて各オブジェクトを表現することです。
これにより、(1)テキストクエリをオブジェクトレベル(ガウスレベルではない)の埋め込みと比較することにより、正確なオープン語彙オブジェクトの検索が可能となり、(2)シームレスなタスク適応:2次元セグメンテーションや3次元抽出のためのガウスアンにオブジェクトIDを伝搬する。
論文 参考訳(メタデータ) (2025-09-16T10:39:37Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - UniForward: Unified 3D Scene and Semantic Field Reconstruction via Feed-Forward Gaussian Splatting from Only Sparse-View Images [43.40816438003861]
本稿では,3次元シーンとセマンティックフィールドの再構成を統一したフィードフォワードモデルを提案する。
我々のUniForwardは、スパースビュー画像のみから、3Dシーンと対応するセマンティックフィールドをリアルタイムで再構築することができる。
新規なビュー合成と新規なビューセグメンテーションの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T04:01:21Z) - CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting [18.581169318975046]
3D Gaussian Splatting (3DGS) はシーン再構築のための強力な表現を提供するが、相互視の粒度の不整合は問題である。
空間コンテキストを3DGSに組み込んだ新しいフレームワークCAGSを提案する。
CAGSは3Dインスタンスのセグメンテーションを大幅に改善し、LERF-OVSやScanNetといったデータセットのフラグメンテーションエラーを低減する。
論文 参考訳(メタデータ) (2025-04-16T09:20:03Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。
未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。
我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T08:46:29Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。