論文の概要: Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2504.02764v1
- Date: Thu, 03 Apr 2025 17:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:57.729316
- Title: Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion Model
- Title(参考訳): 映像拡散モデルによる単一画像からの3次元モメンタムシーン生成
- Authors: Shengjun Zhang, Jinzhao Li, Xin Fei, Hao Liu, Yueqi Duan,
- Abstract要約: Scene Splatterは、単一の画像から一般的なシーンを生成するビデオ拡散のための運動量に基づくパラダイムである。
我々は,映像の詳細を向上し,シーンの一貫性を維持するために,オリジナルの特徴からノイズの多いサンプルをモメンタとして構築する。
我々は,映像拡散モデルを用いて,高忠実度と一貫した新奇なビューを生成する。
- 参考スコア(独自算出の注目度): 14.775908473190684
- License:
- Abstract: In this paper, we propose Scene Splatter, a momentum-based paradigm for video diffusion to generate generic scenes from single image. Existing methods, which employ video generation models to synthesize novel views, suffer from limited video length and scene inconsistency, leading to artifacts and distortions during further reconstruction. To address this issue, we construct noisy samples from original features as momentum to enhance video details and maintain scene consistency. However, for latent features with the perception field that spans both known and unknown regions, such latent-level momentum restricts the generative ability of video diffusion in unknown regions. Therefore, we further introduce the aforementioned consistent video as a pixel-level momentum to a directly generated video without momentum for better recovery of unseen regions. Our cascaded momentum enables video diffusion models to generate both high-fidelity and consistent novel views. We further finetune the global Gaussian representations with enhanced frames and render new frames for momentum update in the next step. In this manner, we can iteratively recover a 3D scene, avoiding the limitation of video length. Extensive experiments demonstrate the generalization capability and superior performance of our method in high-fidelity and consistent scene generation.
- Abstract(参考訳): 本稿では,映像拡散のためのモーメントに基づくパラダイムであるScene Splatterを提案する。
ビデオ生成モデルを用いて新しいビューを合成する既存の手法は、ビデオの長さやシーンの不整合に悩まされ、さらなる再構築の際にはアーチファクトや歪みが発生する。
この問題に対処するため,オリジナル画像からノイズの多いサンプルをモメンタとして構築し,映像の細部を拡大し,シーンの整合性を維持する。
しかし、未知の領域と未知の領域の両方にまたがる知覚場を持つ潜時的特徴に対して、そのような潜時的運動量は未知の領域におけるビデオ拡散の生成能力を制限する。
そこで,上述した一貫した動画を画素レベルの運動量として,非可視領域の回復のための運動量のない直接生成ビデオに導入する。
我々は,映像拡散モデルを用いて,高忠実度と一貫した新奇なビューを生成する。
我々はさらに、拡張されたフレームでグローバルガウス表現を微調整し、次のステップで運動量更新のための新しいフレームを描画する。
このようにして、3Dシーンを反復的に復元することができ、ビデオの長さの制限を回避することができる。
高忠実で一貫したシーン生成において,本手法の一般化能力と優れた性能を示す実験を行った。
関連論文リスト
- Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルから潜伏木を用いた大規模再構成モデルを導入し,シーンの3次元ガウススプラッティングを予測する。
プログレッシブトレーニング戦略により,映像潜時空間上での3D再構成モデルをトレーニングし,高品質,広スコープ,汎用的な3Dシーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - Fast View Synthesis of Casual Videos with Soup-of-Planes [24.35962788109883]
シーンのダイナミックスやパララックスの欠如といった課題のため、Wild ビデオからの新たなビュー合成は困難である。
本稿では,モノクロ映像から高品質な新規ビューを効率よく合成するために,明示的な映像表現を再考する。
本手法は,高品質で最先端の手法に匹敵する品質の動画から高品質な新奇なビューをレンダリングすると同時に,トレーニングの100倍高速でリアルタイムレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:55:48Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。