論文の概要: RealisticDreamer: Guidance Score Distillation for Few-shot Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2511.11213v1
- Date: Fri, 14 Nov 2025 12:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.576473
- Title: RealisticDreamer: Guidance Score Distillation for Few-shot Gaussian Splatting
- Title(参考訳): RealisticDreamer:ガウススメッティングのためのガイダンススコア蒸留
- Authors: Ruocheng Wu, Haolan He, Yufei Wang, Zhihao Li, Bihan Wen,
- Abstract要約: 我々は、事前訓練されたVDMからリッチなマルチビュー一貫性を抽出するGuidance Score Distillation (GSD) というフレームワークを提案する。
本稿では,VDMのノイズ予測結果を修正するための統一的なガイダンス形式を提案する。
実験結果から,本手法は複数のデータセットにまたがる既存手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 43.929036790271425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Gaussian Splatting (3DGS) has recently gained great attention in the 3D scene representation for its high-quality real-time rendering capabilities. However, when the input comprises sparse training views, 3DGS is prone to overfitting, primarily due to the lack of intermediate-view supervision. Inspired by the recent success of Video Diffusion Models (VDM), we propose a framework called Guidance Score Distillation (GSD) to extract the rich multi-view consistency priors from pretrained VDMs. Building on the insights from Score Distillation Sampling (SDS), GSD supervises rendered images from multiple neighboring views, guiding the Gaussian splatting representation towards the generative direction of VDM. However, the generative direction often involves object motion and random camera trajectories, making it challenging for direct supervision in the optimization process. To address this problem, we introduce an unified guidance form to correct the noise prediction result of VDM. Specifically, we incorporate both a depth warp guidance based on real depth maps and a guidance based on semantic image features, ensuring that the score update direction from VDM aligns with the correct camera pose and accurate geometry. Experimental results show that our method outperforms existing approaches across multiple datasets.
- Abstract(参考訳): 3D Gaussian Splatting (3DGS)は、その高品質なリアルタイムレンダリング機能の3Dシーン表現において、最近大きな注目を集めている。
しかしながら、入力がスパーストレーニングビューを含む場合、3DGSは、主に中間視点の監督が欠如しているため、過度に適合する傾向にある。
近年,ビデオ拡散モデル(VDM)の成功に触発されて,事前訓練されたVDMからリッチなマルチビュー一貫性を抽出する Guidance Score Distillation (GSD) というフレームワークを提案する。
スコア蒸留サンプリング(SDS)の知見に基づいて、GSDは複数の隣接するビューからレンダリングされた画像を監督し、VDMの生成方向に向かってガウススプラッティング表現を導く。
しかし、生成方向は、しばしばオブジェクトの動きとランダムカメラの軌跡を伴い、最適化プロセスにおいて直接の監督が難しい。
この問題に対処するために,VDMのノイズ予測結果を修正するための統一的なガイダンス形式を導入する。
具体的には、実深度マップに基づく深度ワープガイダンスと意味画像の特徴に基づくガイダンスの両方を取り入れ、VDMからのスコア更新方向が正しいカメラポーズと正確な形状に一致することを保証する。
実験結果から,本手法は複数のデータセットにまたがる既存手法よりも優れていることがわかった。
関連論文リスト
- PointGS: Point Attention-Aware Sparse View Synthesis with Gaussian Splatting [4.451779041553596]
3D Gaussian splatting (3DGS) は、レンダリング速度と視覚品質の両方において、ニューラル放射場(NeRF)を超える革新的なレンダリング技術である。
本稿では,スパーストレーニングビューからリアルタイムかつ高品質なレンダリングを可能にするポイントワイズ特徴認識型ガウス分割フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-12T04:07:07Z) - ODG: Occupancy Prediction Using Dual Gaussians [38.9869091446875]
活動予測は周囲環境のカメラ画像から微細な3次元形状と意味を推定する。
既存の方法は、シーン表現として高密度グリッドを採用するか、単一のスパースクエリを使用してシーン全体を学習する。
複雑なシーンダイナミクスを効果的に捉えるために,階層的な二重スパースガウス表現であるODGを提案する。
論文 参考訳(メタデータ) (2025-06-11T06:03:03Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - Taming Video Diffusion Prior with Scene-Grounding Guidance for 3D Gaussian Splatting from Sparse Inputs [28.381287866505637]
本稿では,映像拡散モデルから学習した先行情報を生かした生成パイプラインによる再構成手法を提案する。
最適化された3DGSからのレンダリングシーケンスに基づく新しいシーングラウンドガイダンスを導入し,拡散モデルを用いて一貫したシーケンスを生成する。
提案手法はベースラインを大幅に改善し,挑戦的なベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-07T01:59:05Z) - How to Use Diffusion Priors under Sparse Views? [29.738350228085928]
Inline Prior Guided Score Matching is proposed to provide visual supervision over sparse view in 3D reconstruction。
提案手法は,最先端の復元品質を実現する。
論文 参考訳(メタデータ) (2024-12-03T07:31:54Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。