論文の概要: MuGS: Multi-Baseline Generalizable Gaussian Splatting Reconstruction
- arxiv url: http://arxiv.org/abs/2508.04297v1
- Date: Wed, 06 Aug 2025 10:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.681948
- Title: MuGS: Multi-Baseline Generalizable Gaussian Splatting Reconstruction
- Title(参考訳): MuGS: マルチベースライン汎用ガウス整形術
- Authors: Yaopeng Lou, Liao Shen, Tianqi Liu, Jiaqi Li, Zihao Huang, Huiqiang Sun, Zhiguo Cao,
- Abstract要約: 新規なビュー合成のためのフィードフォワードアプローチであるmulti-Baseline Gaussian Splatting(MuRF)を提案する。
MuRFは、複数のベースライン設定と多様なシナリオで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 13.941042770932794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Multi-Baseline Gaussian Splatting (MuRF), a generalized feed-forward approach for novel view synthesis that effectively handles diverse baseline settings, including sparse input views with both small and large baselines. Specifically, we integrate features from Multi-View Stereo (MVS) and Monocular Depth Estimation (MDE) to enhance feature representations for generalizable reconstruction. Next, We propose a projection-and-sampling mechanism for deep depth fusion, which constructs a fine probability volume to guide the regression of the feature map. Furthermore, We introduce a reference-view loss to improve geometry and optimization efficiency. We leverage 3D Gaussian representations to accelerate training and inference time while enhancing rendering quality. MuRF achieves state-of-the-art performance across multiple baseline settings and diverse scenarios ranging from simple objects (DTU) to complex indoor and outdoor scenes (RealEstate10K). We also demonstrate promising zero-shot performance on the LLFF and Mip-NeRF 360 datasets.
- Abstract(参考訳): マルチベースライン・ガウス・スプラッティング (MuRF) は, 多様なベースライン設定を効果的に扱う新しいビュー合成のための汎用フィードフォワード・アプローチであり, 小さいベースラインと大きなベースラインの両方でスパース・インプット・ビューを効果的に扱う。
具体的には,Multi-View Stereo (MVS) とMonocular Depth Estimation (MDE) の機能を統合して,一般化可能な再構成のための特徴表現を強化する。
次に,特徴写像の回帰を導出する微細な確率体積を構成する深部核融合の投射・サンプリング機構を提案する。
さらに、幾何学と最適化の効率を改善するために、参照ビューの損失を導入する。
我々は3次元ガウス表現を利用して、レンダリング品質を高めながら、トレーニングと推論時間を高速化する。
MuRFは、複数のベースライン設定と、シンプルなオブジェクト(DTU)から複雑な屋内および屋外のシーン(RealEstate10K)まで、さまざまなシナリオで最先端のパフォーマンスを実現している。
また,LLFFおよびMip-NeRF 360データセットのゼロショット性能についても実証した。
関連論文リスト
- MuSASplat: Efficient Sparse-View 3D Gaussian Splats via Lightweight Multi-Scale Adaptation [92.57609195819647]
MuSASplatは、ポーズなしフィードフォワード3Dガウスモデルの計算負担を劇的に削減する新しいフレームワークである。
我々のアプローチの中心は、ほんのわずかなトレーニングパラメータだけで、ViTベースのアーキテクチャを効率的に微調整できる軽量なマルチスケールアダプタである。
論文 参考訳(メタデータ) (2025-12-08T04:56:46Z) - C3G: Learning Compact 3D Representations with 2K Gaussians [55.04010158339562]
近年の手法では3次元ガウススプラッティングを再構成に用い, シーン理解のための2D-to-3D機能昇降ステージが提案されている。
提案するC3Gは,空間的にのみコンパクトな3次元ガウスを推定する新しいフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-12-03T17:59:05Z) - UniGS: Unified Geometry-Aware Gaussian Splatting for Multimodal Rendering [10.560500427919647]
3D Splatting に基づく統一地図表現と識別可能な属性再構成である UniGS を提案する。
我々のフレームワークは、写真リアルなRGB画像、幾何学的に正確な深度マップ、一貫した表面正規化、セマンティックロジットを同時にレンダリングできるマルチモーダルビューアを統合している。
論文 参考訳(メタデータ) (2025-10-14T06:07:57Z) - ${C}^{3}$-GS: Learning Context-aware, Cross-dimension, Cross-scale Feature for Generalizable Gaussian Splatting [16.868578618340262]
Generalizable Gaussian Splattingは、シーンごとの最適化なしに、見えないシーンのための新しいビューを合成することを目的としている。
本稿では,コンテキスト認識,クロスディメンジョン,クロススケール制約を取り入れた特徴学習を支援するフレームワークであるmathbfC3$-GSを提案する。
我々のアーキテクチャは、3つの軽量モジュールを統合レンダリングパイプラインに統合し、機能融合を改善し、追加の監視を必要とせずに合成を可能にする。
論文 参考訳(メタデータ) (2025-08-28T13:12:18Z) - MonoSplat: Generalizable 3D Gaussian Splatting from Monocular Depth Foundation Models [42.00619438358396]
我々は,事前学習した単分子深度基礎モデルからリッチな視覚的事前情報を活用する新しいフレームワークであるMonoSplatを紹介した。
提案手法は,モノクロ特徴を多視点表現に変換するMono-Multi Feature Adapterと,ガウス予測モジュールの2つの重要なコンポーネントから構成される。
我々はMonoSplatが既存の手法に比べて優れた再構築品質と一般化能力を実現することを実証する。
論文 参考訳(メタデータ) (2025-05-21T07:03:16Z) - GBR: Generative Bundle Refinement for High-fidelity Gaussian Splatting and Meshing [27.747748706297497]
GBR(Generative Bundle Refinement)は、4-6の入力ビューのみを用いた高忠実なガウススプラッティングとメッシュ化のための手法である。
GBRは、幾何学的精度を高めるために神経束調整モジュールと、幾何学的忠実性を改善するために生成深度改善モジュールを統合している。
GBRは、大規模な現実世界のシーンを再構築し、レンダリングする能力を示している。
論文 参考訳(メタデータ) (2024-12-08T12:00:25Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [73.49548565633123]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
本稿では,3次元ガウス・スプレイティング(MCGS)に基づくビュー・フレームワークを提案し,スパークス・インプット・ビューからシーンを再構築する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes [50.534213038479926]
FreeSplatは、長いシーケンス入力から自由視点合成まで、幾何学的に一貫した3Dシーンを再構築することができる。
ビュー数に関係なく、広いビュー範囲にわたる堅牢なビュー合成を実現するための、シンプルで効果的なフリービュートレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-28T08:40:14Z) - MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo [54.00987996368157]
MVSGaussianは、Multi-View Stereo(MVS)から導かれる新しい一般化可能な3次元ガウス表現手法である。
MVSGaussianは、シーンごとにより良い合成品質でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2024-05-20T17:59:30Z) - MuRF: Multi-Baseline Radiance Fields [117.55811938988256]
スパースビュー合成におけるフィードフォワードアプローチであるmulti-Baseline Radiance Fields(MuRF)を提案する。
MuRFは、複数の異なるベースライン設定で最先端のパフォーマンスを達成する。
また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:56Z) - FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting [58.41056963451056]
本稿では,3次元ガウススプラッティングに基づく数ショットビュー合成フレームワークを提案する。
このフレームワークは3つのトレーニングビューでリアルタイムおよびフォトリアリスティックなビュー合成を可能にする。
FSGSは、さまざまなデータセットの精度とレンダリング効率の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T09:30:02Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。