論文の概要: CUS-GS: A Compact Unified Structured Gaussian Splatting Framework for Multimodal Scene Representation
- arxiv url: http://arxiv.org/abs/2511.17904v1
- Date: Sat, 22 Nov 2025 03:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.505924
- Title: CUS-GS: A Compact Unified Structured Gaussian Splatting Framework for Multimodal Scene Representation
- Title(参考訳): CUS-GS:マルチモーダルシーン表現のためのコンパクトな統一型ガウス平滑化フレームワーク
- Authors: Yuhang Ming, Chenxin Fang, Xingyuan Yu, Fan Zhang, Weichen Dai, Wanzeng Kong, Guofeng Zhang,
- Abstract要約: CUS-GSはコンパクトな統一型ガウススプティング表現である。
本稿では,アンカーの生育と刈り取りをガイドするための特徴認識重要度評価戦略を提案する。
CUS-GSは6Mパラメータしか使用しない最先端の手法と比較して、競争性能が向上する。
- 参考スコア(独自算出の注目度): 16.85102888388904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Gaussian Splatting based 3D scene representation have shown two major trends: semantics-oriented approaches that focus on high-level understanding but lack explicit 3D geometry modeling, and structure-oriented approaches that capture spatial structures yet provide limited semantic abstraction. To bridge this gap, we present CUS-GS, a compact unified structured Gaussian Splatting representation, which connects multimodal semantic features with structured 3D geometry. Specifically, we design a voxelized anchor structure that constructs a spatial scaffold, while extracting multimodal semantic features from a set of foundation models (e.g., CLIP, DINOv2, SEEM). Moreover, we introduce a multimodal latent feature allocation mechanism to unify appearance, geometry, and semantics across heterogeneous feature spaces, ensuring a consistent representation across multiple foundation models. Finally, we propose a feature-aware significance evaluation strategy to dynamically guide anchor growing and pruning, effectively removing redundant or invalid anchors while maintaining semantic integrity. Extensive experiments show that CUS-GS achieves competitive performance compared to state-of-the-art methods using as few as 6M parameters - an order of magnitude smaller than the closest rival at 35M - highlighting the excellent trade off between performance and model efficiency of the proposed framework.
- Abstract(参考訳): 近年のガウススプラッティングに基づく3次元シーン表現の進歩は、高レベルな理解に焦点をあてるセマンティックス指向のアプローチと、空間構造を捉えながら限定的なセマンティック抽象化を提供する構造指向のアプローチの2つの大きな傾向を示している。
このギャップを埋めるために、我々は、マルチモーダルなセマンティック特徴と構造化された3次元幾何を接続する、コンパクトな統一構成されたガウススプラッティング表現であるCUS-GSを提案する。
具体的には,空間的な足場を構成するボキセル化アンカー構造を設計し,基礎モデルの集合(例えば,CLIP,DINOv2,SEEM)からマルチモーダルな意味的特徴を抽出する。
さらに,不均一な特徴空間にまたがる外観,幾何学,意味を統一し,複数の基礎モデルにまたがる一貫した表現を確保するために,多モード潜在特徴割当機構を導入する。
最後に,アンカーの成長と刈り取りを動的に指導し,意味的整合性を維持しつつ,冗長なアンカーや無効なアンカーを効果的に除去する特徴認識重要度評価戦略を提案する。
大規模な実験により,CUS-GSは,最大6Mのパラメータ(35Mの最も近いライバルよりも桁違いに小さい)を用いた最先端の手法と比較して,性能とモデル効率の優れたトレードオフを浮き彫りにしている。
関連論文リスト
- SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation [114.57192386025373]
SegSplatは、高速でフィードフォワードな3D再構成とリッチでオープンなセマンティック理解のギャップを埋めるために設計された、新しいフレームワークである。
この研究は、意味的に認識された3D環境の実践的でオンザフライな生成に向けた重要なステップである。
論文 参考訳(メタデータ) (2025-11-23T10:26:38Z) - Learning Topology-Driven Multi-Subspace Fusion for Grassmannian Deep Network [31.003374497881968]
グラスマン多様体は幾何学的表現学習のための強力なキャリアを提供する。
本稿では,グラスマン多様体上での適応的部分空間協調を実現するトポロジ駆動型多部分空間融合フレームワークを提案する。
我々の研究は幾何学的深層学習を推進し、ユークリッドネットワークの証明されたマルチチャネル相互作用の哲学を非ユークリッド領域に適用する。
論文 参考訳(メタデータ) (2025-11-09T10:33:13Z) - Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion [73.11061598576798]
カメラによる占有予測は、自動運転における3D知覚の主流のアプローチである。
textbfCIGOccはマルチレベル表現融合に基づく2段階の占有予測フレームワークである。
textbfCIGOccは、入力画像からセグメンテーション、グラフィックス、深さの特徴を抽出し、変形可能なマルチレベル融合機構を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:37:33Z) - Light-SQ: Structure-aware Shape Abstraction with Superquadrics for Generated Meshes [60.92139345612904]
我々は、新しいスーパークワッドリックベースの最適化フレームワークLight-SQを提案する。
本稿では,構造対応ボリューム分解によるブロック再配置戦略を提案する。
実験によると、Light-SQはスーパークワッドリックで効率よく、高忠実で、編集可能な形状の抽象化を可能にする。
論文 参考訳(メタデータ) (2025-09-29T16:18:32Z) - Hierarchical Neural Semantic Representation for 3D Semantic Correspondence [72.8101601086805]
階層型ニューラルセマンティック表現(HNSR)を設計し,高次構造と多分解能局所幾何学的特徴を捉える。
第2に,グローバルなセマンティック特徴を用いた粗いセマンティック対応を確立する,プログレッシブなグローバル-ローカルマッチング戦略を設計する。
第3に,本フレームワークはトレーニングフリーで,様々なトレーニング済みの3D生成バックボーンと広範囲に互換性があり,多様な形状カテゴリにまたがる強力な一般化が示されている。
論文 参考訳(メタデータ) (2025-09-22T07:23:07Z) - FHGS: Feature-Homogenized Gaussian Splatting [7.238124816235862]
$textitFHGS$は物理モデルにインスパイアされた新しい3D機能融合フレームワークである。
3DGSのリアルタイムレンダリング効率を保ちながら、事前訓練されたモデルから3Dシーンへの任意の2D特徴の高精度マッピングを実現することができる。
論文 参考訳(メタデータ) (2025-05-25T14:08:49Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。