Fugu-MT 論文翻訳(概要): GaussVideoDreamer: 3D Scene Generation with Video Diffusion and Inconsistency-Aware Gaussian Splatting

論文の概要: GaussVideoDreamer: 3D Scene Generation with Video Diffusion and Inconsistency-Aware Gaussian Splatting

arxiv url: http://arxiv.org/abs/2504.10001v1
Date: Mon, 14 Apr 2025 09:04:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 19:37:23.906598
Title: GaussVideoDreamer: 3D Scene Generation with Video Diffusion and Inconsistency-Aware Gaussian Splatting
Title（参考訳）: GaussVideoDreamer: ビデオ拡散と矛盾を意識したガウス撮影による3Dシーン生成
Authors: Junlin Hao, Peiheng Wang, Haoyang Wang, Xinggong Zhang, Zongming Guo,
Abstract要約: GaussVideoDreamerは、画像、ビデオ、および3D生成のギャップを埋めることで、生成的マルチメディアアプローチを前進させる。提案手法は,LLaVA-IQAスコアの32%,既存の手法に比べて少なくとも2倍の高速化を実現している。
参考スコア（独自算出の注目度）: 17.17292309504131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Single-image 3D scene reconstruction presents significant challenges due to its inherently ill-posed nature and limited input constraints. Recent advances have explored two promising directions: multiview generative models that train on 3D consistent datasets but struggle with out-of-distribution generalization, and 3D scene inpainting and completion frameworks that suffer from cross-view inconsistency and suboptimal error handling, as they depend exclusively on depth data or 3D smoothness, which ultimately degrades output quality and computational performance. Building upon these approaches, we present GaussVideoDreamer, which advances generative multimedia approaches by bridging the gap between image, video, and 3D generation, integrating their strengths through two key innovations: (1) A progressive video inpainting strategy that harnesses temporal coherence for improved multiview consistency and faster convergence. (2) A 3D Gaussian Splatting consistency mask to guide the video diffusion with 3D consistent multiview evidence. Our pipeline combines three core components: a geometry-aware initialization protocol, Inconsistency-Aware Gaussian Splatting, and a progressive video inpainting strategy. Experimental results demonstrate that our approach achieves 32% higher LLaVA-IQA scores and at least 2x speedup compared to existing methods while maintaining robust performance across diverse scenes.
Abstract（参考訳）: シングルイメージの3Dシーン再構成は、本質的に不適切な性質と限られた入力制約のため、重大な課題を呈している。最近の進歩は、2つの有望な方向を探っている: 3次元一貫したデータセットを訓練するマルチビュー生成モデル、そして出力品質と計算性能を最終的に低下させる3次元シーンのインペイントと完了フレームワーク。これらのアプローチに基づいて,映像,映像,3D生成のギャップを埋めることで生成的マルチメディアアプローチを推し進めるGaussVideoDreamerを提案する。 2) 映像拡散を3次元一貫したマルチビューエビデンスで導くための3次元ガウス整合マスク。パイプラインには3つのコアコンポーネントが組み合わさっている。ジオメトリ対応初期化プロトコル,一貫性対応ガウス分割,プログレッシブビデオインパインティング戦略である。実験結果から,LLaVA-IQAスコアは従来の手法に比べて32%高く,少なくとも2倍の高速化を実現し,多様な場面で堅牢な性能を維持した。

関連論文リスト

DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-28T09:20:50Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation [24.255633621887988]
本研究では,2次元拡散モデルの暗黙的3次元推論能力を活用しながら3次元の整合性を確保する手法を提案する。具体的には、提案したガウススプラッティングデコーダは、SV3D潜在出力を明示的な3D表現に変換することで、3D一貫性を強制する。その結果,高品質でマルチビュー一貫性のある画像と正確な3Dモデルが同時に生成されることがわかった。
論文参考訳（メタデータ） (2025-03-08T09:10:31Z)
F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文参考訳（メタデータ） (2025-01-12T04:44:44Z)
LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文参考訳（メタデータ） (2024-12-12T18:58:42Z)
World-consistent Video Diffusion with Explicit 3D Modeling [67.39618291644673]
World-Consistent Video Diffusion (WVD)は、XYZ画像を用いた明示的な3D監視を含む新しいフレームワークである。我々は拡散変換器を訓練し、RGBとXYZフレームの結合分布を学習する。 WVDは、シングルイメージから3D生成、マルチビューステレオ、カメラ制御ビデオ生成といったタスクを統一する。
論文参考訳（メタデータ） (2024-12-02T18:58:23Z)
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文参考訳（メタデータ） (2024-10-01T17:29:43Z)
Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。 58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文参考訳（メタデータ） (2024-06-04T17:57:37Z)
Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文参考訳（メタデータ） (2023-12-14T17:18:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。