論文の概要: GaussVideoDreamer: 3D Scene Generation with Video Diffusion and Inconsistency-Aware Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2504.10001v1
- Date: Mon, 14 Apr 2025 09:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:39.179354
- Title: GaussVideoDreamer: 3D Scene Generation with Video Diffusion and Inconsistency-Aware Gaussian Splatting
- Title(参考訳): GaussVideoDreamer: ビデオ拡散と矛盾を意識したガウス撮影による3Dシーン生成
- Authors: Junlin Hao, Peiheng Wang, Haoyang Wang, Xinggong Zhang, Zongming Guo,
- Abstract要約: GaussVideoDreamerは、画像、ビデオ、および3D生成のギャップを埋めることで、生成的マルチメディアアプローチを前進させる。
提案手法は,LLaVA-IQAスコアの32%,既存の手法に比べて少なくとも2倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 17.17292309504131
- License:
- Abstract: Single-image 3D scene reconstruction presents significant challenges due to its inherently ill-posed nature and limited input constraints. Recent advances have explored two promising directions: multiview generative models that train on 3D consistent datasets but struggle with out-of-distribution generalization, and 3D scene inpainting and completion frameworks that suffer from cross-view inconsistency and suboptimal error handling, as they depend exclusively on depth data or 3D smoothness, which ultimately degrades output quality and computational performance. Building upon these approaches, we present GaussVideoDreamer, which advances generative multimedia approaches by bridging the gap between image, video, and 3D generation, integrating their strengths through two key innovations: (1) A progressive video inpainting strategy that harnesses temporal coherence for improved multiview consistency and faster convergence. (2) A 3D Gaussian Splatting consistency mask to guide the video diffusion with 3D consistent multiview evidence. Our pipeline combines three core components: a geometry-aware initialization protocol, Inconsistency-Aware Gaussian Splatting, and a progressive video inpainting strategy. Experimental results demonstrate that our approach achieves 32% higher LLaVA-IQA scores and at least 2x speedup compared to existing methods while maintaining robust performance across diverse scenes.
- Abstract(参考訳): シングルイメージの3Dシーン再構成は、本質的に不適切な性質と限られた入力制約のため、重大な課題を呈している。
最近の進歩は、2つの有望な方向を探っている: 3次元一貫したデータセットを訓練するマルチビュー生成モデル、そして出力品質と計算性能を最終的に低下させる3次元シーンのインペイントと完了フレームワーク。
これらのアプローチに基づいて,映像,映像,3D生成のギャップを埋めることで生成的マルチメディアアプローチを推し進めるGaussVideoDreamerを提案する。
2) 映像拡散を3次元一貫したマルチビューエビデンスで導くための3次元ガウス整合マスク。
パイプラインには3つのコアコンポーネントが組み合わさっている。ジオメトリ対応初期化プロトコル,一貫性対応ガウス分割,プログレッシブビデオインパインティング戦略である。
実験結果から,LLaVA-IQAスコアは従来の手法に比べて32%高く,少なくとも2倍の高速化を実現し,多様な場面で堅牢な性能を維持した。
関連論文リスト
- F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。
画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。
また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文 参考訳(メタデータ) (2025-01-12T04:44:44Z) - LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - World-consistent Video Diffusion with Explicit 3D Modeling [67.39618291644673]
World-Consistent Video Diffusion (WVD)は、XYZ画像を用いた明示的な3D監視を含む新しいフレームワークである。
我々は拡散変換器を訓練し、RGBとXYZフレームの結合分布を学習する。
WVDは、シングルイメージから3D生成、マルチビューステレオ、カメラ制御ビデオ生成といったタスクを統一する。
論文 参考訳(メタデータ) (2024-12-02T18:58:23Z) - HiCoM: Hierarchical Coherent Motion for Streamable Dynamic Scene with 3D Gaussian Splatting [7.507657419706855]
本稿では,HiCoMと呼ばれる3つの重要なコンポーネントを持つ効率的なフレームワークを提案する。
まず、摂動平滑化戦略を用いて、コンパクトで頑健な初期3DGS表現を構築する。
次に、3次元ガウスの固有非一様分布と局所的一貫性を利用する階層的コヒーレント運動機構を導入する。
2つの広く利用されているデータセットを用いて行った実験により、我々のフレームワークは最先端の手法の学習効率を約20%向上することが示された。
論文 参考訳(メタデータ) (2024-11-12T04:40:27Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - SuperGaussian: Repurposing Video Models for 3D Super Resolution [67.19266415499139]
本稿では,幾何学的および外観的詳細を付加することにより,粗い3次元モデルをアップサンプルする,単純でモジュラーで汎用的な手法を提案する。
既存の3次元超解像モデルを直接再利用できることを実証する。
論文 参考訳(メタデータ) (2024-06-02T03:44:50Z) - Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。