論文の概要: C3G: Learning Compact 3D Representations with 2K Gaussians
- arxiv url: http://arxiv.org/abs/2512.04021v1
- Date: Wed, 03 Dec 2025 17:59:05 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:06:49.376791
- Title: C3G: Learning Compact 3D Representations with 2K Gaussians
- Title(参考訳): C3G: 2Kガウスでコンパクトな3D表現を学ぶ
- Authors: Honggyu An, Jaewoo Jung, Mungyeom Kim, Sunghwan Hong, Chaehyun Kim, Kazumi Fukuda, Minkyeong Jeon, Jisang Han, Takuya Narihira, Hyuna Ko, Junsu Kim, Yuki Mitsufuji, Seungryong Kim,
- Abstract要約: 近年の手法では3次元ガウススプラッティングを再構成に用い, シーン理解のための2D-to-3D機能昇降ステージが提案されている。
提案するC3Gは,空間的にのみコンパクトな3次元ガウスを推定する新しいフィードフォワードフレームワークである。
- 参考スコア(独自算出の注目度): 55.04010158339562
- License:
- Abstract: Reconstructing and understanding 3D scenes from unposed sparse views in a feed-forward manner remains as a challenging task in 3D computer vision. Recent approaches use per-pixel 3D Gaussian Splatting for reconstruction, followed by a 2D-to-3D feature lifting stage for scene understanding. However, they generate excessive redundant Gaussians, causing high memory overhead and sub-optimal multi-view feature aggregation, leading to degraded novel view synthesis and scene understanding performance. We propose C3G, a novel feed-forward framework that estimates compact 3D Gaussians only at essential spatial locations, minimizing redundancy while enabling effective feature lifting. We introduce learnable tokens that aggregate multi-view features through self-attention to guide Gaussian generation, ensuring each Gaussian integrates relevant visual features across views. We then exploit the learned attention patterns for Gaussian decoding to efficiently lift features. Extensive experiments on pose-free novel view synthesis, 3D open-vocabulary segmentation, and view-invariant feature aggregation demonstrate our approach's effectiveness. Results show that a compact yet geometrically meaningful representation is sufficient for high-quality scene reconstruction and understanding, achieving superior memory efficiency and feature fidelity compared to existing methods.
- Abstract(参考訳): フィードフォワード方式で、未提示のスパースビューから3Dシーンを再構築し、理解することは、3Dコンピュータビジョンにおいて難しい課題である。
近年の手法では3次元ガウススプラッティングを再構成に用い, シーン理解のための2D-to-3D機能昇降ステージが提案されている。
しかし、過剰な冗長なガウシアンを生成し、高いメモリオーバーヘッドと準最適多視点特徴集約を引き起こし、新規なビュー合成とシーン理解性能が低下する。
提案するC3Gは,空間的位置のみにコンパクトな3次元ガウスを推定する新しいフィードフォワードフレームワークである。
学習可能なトークンを導入し,多視点特徴を自己認識することでガウス世代を誘導し,各ガウス世代がビュー間で関連性のある視覚的特徴を統合することを保証した。
学習した注意パターンをガウス復号法に利用して効率よく機能を持ち上げる。
ポーズフリーな新規ビュー合成,3次元オープンボキャブラリセグメンテーション,ビュー不変機能アグリゲーションに関する大規模な実験により,本手法の有効性が示された。
その結果、コンパクトだが幾何学的に意味のある表現は、高品質なシーンの再構築と理解に十分であり、既存の手法に比べて優れたメモリ効率と特徴の忠実さを実現していることがわかった。
関連論文リスト
- econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - Self-supervised Learning of Hybrid Part-aware 3D Representations of 2D Gaussians and Superquadrics [16.446659867133977]
PartGSは、オブジェクトやシーンを解釈可能な分解に解析するために、2Dガウスとスーパークワッドリックを統合する、自己管理された部分認識再構築フレームワークである。
提案手法は,DTU,ShapeNet,および実世界のデータセットに関する広範な実験において,最先端の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-20T12:30:37Z) - Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields [13.729716867839509]
ハイパフォーマンスを維持しつつガウスの数を著しく削減する学習可能なマスク戦略を提案する。
さらに、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。
我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文 参考訳(メタデータ) (2024-08-07T14:56:34Z) - FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes [50.534213038479926]
FreeSplatは、長いシーケンス入力から自由視点合成まで、幾何学的に一貫した3Dシーンを再構築することができる。
ビュー数に関係なく、広いビュー範囲にわたる堅牢なビュー合成を実現するための、シンプルで効果的なフリービュートレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-28T08:40:14Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for View-Consistent 3D Indoor Semantic Understanding [17.440124130814166]
室内シーンのオープンな3Dセマンティック理解のためのCLIPモデルを用いた3Dガウススティング(3DGS)が注目されている。
提案するセマンティック属性コンパクト性(SAC)と3Dコヒーレント正規化(3DCR)を用いて、3次元屋内シーンのコヒーレントな意味理解を効率的に実現するCLIP-GSを提案する。
ScanNetとReplicaのデータセット上で,mIoUの21.20%と13.05%の改善を実現し,既存の最先端手法を著しく抑制する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。