論文の概要: Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding
- arxiv url: http://arxiv.org/abs/2601.02339v1
- Date: Mon, 05 Jan 2026 18:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.356281
- Title: Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding
- Title(参考訳): 異方性局所符号化を用いた3次元ガウスモデリングにおける関節意味とレンダリングの強化
- Authors: Jingming He, Chongyi Li, Shiqi Wang, Sam Kwong,
- Abstract要約: 本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
- 参考スコア(独自算出の注目度): 86.55824709875598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works propose extending 3DGS with semantic feature vectors for simultaneous semantic segmentation and image rendering. However, these methods often treat the semantic and rendering branches separately, relying solely on 2D supervision while ignoring the 3D Gaussian geometry. Moreover, current adaptive strategies adapt the Gaussian set depending solely on rendering gradients, which can be insufficient in subtle or textureless regions. In this work, we propose a joint enhancement framework for 3D semantic Gaussian modeling that synergizes both semantic and rendering branches. Firstly, unlike conventional point cloud shape encoding, we introduce an anisotropic 3D Gaussian Chebyshev descriptor using the Laplace-Beltrami operator to capture fine-grained 3D shape details, thereby distinguishing objects with similar appearances and reducing reliance on potentially noisy 2D guidance. In addition, without relying solely on rendering gradient, we adaptively adjust Gaussian allocation and spherical harmonics with local semantic and shape signals, enhancing rendering efficiency through selective resource allocation. Finally, we employ a cross-scene knowledge transfer module to continuously update learned shape patterns, enabling faster convergence and robust representations without relearning shape information from scratch for each new scene. Experiments on multiple datasets demonstrate improvements in segmentation accuracy and rendering quality while maintaining high rendering frame rates.
- Abstract(参考訳): 近年,セマンティックセグメンテーションと画像レンダリングのためのセマンティック特徴ベクトルによる3DGSの拡張が提案されている。
しかしながら、これらの手法は、しばしばセマンティックとレンダリングの分岐を別々に扱い、3次元ガウス幾何学を無視しながら2次元の監督にのみ依存する。
さらに、現在の適応戦略はレンダリング勾配のみに依存するガウス集合に適応しており、微妙な領域やテクスチャのない領域では不十分である。
本研究では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
まず,従来の点雲形状符号化とは異なり,Laplace-Beltrami演算子を用いた異方性3D Gaussian Chebyshev記述子を導入し,細粒度3D形状の詳細を捉えることにより,類似した形状の物体を識別し,うるさい2Dガイダンスへの依存を低減する。
また,レンダリング勾配のみに頼らず,局所的な意味や形状の信号によるガウス配置と球面調和を適応的に調整し,選択的な資源割り当てによるレンダリング効率の向上を図る。
最後に、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、新しいシーンごとにスクラッチから形状情報を学習することなく、より高速な収束と堅牢な表現を可能にする。
複数のデータセットの実験では、高いレンダリングフレームレートを維持しながら、セグメンテーション精度とレンダリング品質の改善が示されている。
関連論文リスト
- BG-Triangle: Bézier Gaussian Triangle for 3D Vectorization and Rendering [60.240908644910874]
微分レンダリングは、レンダリングプロセスを通じて勾配を計算できるようにすることで、効率的な最適化を可能にする。
既存の解は、滑らかで確率的プロキシを使って従来のレンダリング操作を近似または再定式化する。
本稿では,B'ezier三角形に基づくベクトルグラフィックスプリミティブとガウス確率モデルを組み合わせたハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-03-18T06:53:52Z) - LinPrim: Linear Primitives for Differentiable Volumetric Rendering [51.56484100374058]
線形プリミティブに基づく2つの新しいシーン表現を導入する。
我々はGPU上で効率的に動作する異なるオクタライザを提案する。
我々は最先端の手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2025-01-27T18:49:38Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization [1.4466437171584356]
軽量なXFeat特徴抽出器から高密度かつ堅牢なキーポイント記述器を3DGSに統合する2段階の手順を提案する。
第2段階では、レンダリングベースの光度ワープ損失を最小限に抑え、初期ポーズ推定を洗練させる。
広く使われている屋内および屋外データセットのベンチマークは、最近のニューラルレンダリングベースのローカライゼーション手法よりも改善されていることを示している。
論文 参考訳(メタデータ) (2024-09-24T23:18:32Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for View-Consistent 3D Indoor Semantic Understanding [17.440124130814166]
室内シーンのオープンな3Dセマンティック理解のためのCLIPモデルを用いた3Dガウススティング(3DGS)が注目されている。
提案するセマンティック属性コンパクト性(SAC)と3Dコヒーレント正規化(3DCR)を用いて、3次元屋内シーンのコヒーレントな意味理解を効率的に実現するCLIP-GSを提案する。
ScanNetとReplicaのデータセット上で,mIoUの21.20%と13.05%の改善を実現し,既存の最先端手法を著しく抑制する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction [48.86083272054711]
latentSplatは3D潜在空間における意味ガウスを予測し、軽量な生成型2Dアーキテクチャで切り落としてデコードする手法である。
latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-24T20:48:36Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。