論文の概要: DreamJourney: Perpetual View Generation with Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.17705v1
- Date: Sat, 21 Jun 2025 12:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.549073
- Title: DreamJourney: Perpetual View Generation with Video Diffusion Models
- Title(参考訳): DreamJourney:ビデオ拡散モデルによる永続的なビュー生成
- Authors: Bo Pan, Yang Chen, Yingwei Pan, Ting Yao, Wei Chen, Tao Mei,
- Abstract要約: 永続ビュー生成は、単一の入力画像からのみ任意のカメラ軌跡に対応する長期映像を合成することを目的としている。
近年の手法では、予め訓練されたテキスト・画像拡散モデルを用いて、カメラの動きに沿った未確認領域の新しいコンテンツを合成する。
本稿では,映像拡散モデルの世界シミュレーション能力を活用して,新たなシーンビュー生成タスクを起動する2段階フレームワークであるDreamJourneyを紹介する。
- 参考スコア(独自算出の注目度): 91.88716097573206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perpetual view generation aims to synthesize a long-term video corresponding to an arbitrary camera trajectory solely from a single input image. Recent methods commonly utilize a pre-trained text-to-image diffusion model to synthesize new content of previously unseen regions along camera movement. However, the underlying 2D diffusion model lacks 3D awareness and results in distorted artifacts. Moreover, they are limited to generating views of static 3D scenes, neglecting to capture object movements within the dynamic 4D world. To alleviate these issues, we present DreamJourney, a two-stage framework that leverages the world simulation capacity of video diffusion models to trigger a new perpetual scene view generation task with both camera movements and object dynamics. Specifically, in stage I, DreamJourney first lifts the input image to 3D point cloud and renders a sequence of partial images from a specific camera trajectory. A video diffusion model is then utilized as generative prior to complete the missing regions and enhance visual coherence across the sequence, producing a cross-view consistent video adheres to the 3D scene and camera trajectory. Meanwhile, we introduce two simple yet effective strategies (early stopping and view padding) to further stabilize the generation process and improve visual quality. Next, in stage II, DreamJourney leverages a multimodal large language model to produce a text prompt describing object movements in current view, and uses video diffusion model to animate current view with object movements. Stage I and II are repeated recurrently, enabling perpetual dynamic scene view generation. Extensive experiments demonstrate the superiority of our DreamJourney over state-of-the-art methods both quantitatively and qualitatively. Our project page: https://dream-journey.vercel.app.
- Abstract(参考訳): 永続ビュー生成は、単一の入力画像からのみ任意のカメラ軌跡に対応する長期映像を合成することを目的としている。
近年の手法では、予め訓練されたテキスト・画像拡散モデルを用いて、カメラの動きに沿った未確認領域の新しいコンテンツを合成する。
しかし、基礎となる2次元拡散モデルには3次元認識が欠如し、歪んだ人工物が生じる。
さらに、静的な3Dシーンのビューの生成に制限されており、ダイナミックな4D世界の物体の動きを捉えることは無視されている。
これらの問題を緩和するために、DreamJourneyは、ビデオ拡散モデルの世界シミュレーション能力を活用して、カメラの動きとオブジェクトのダイナミクスを兼ね備えた新しいシーンビュー生成タスクを起動する2段階のフレームワークを提案する。
具体的には、ステージIでは、DreamJourneyが最初に入力画像を3Dポイントクラウドに持ち上げ、特定のカメラ軌道から部分的な画像をレンダリングする。
その後、ビデオ拡散モデルは、欠落した領域を完了し、シーケンス間の視覚的コヒーレンスを高めるために生成物として利用され、3Dシーンとカメラ軌道に一貫した映像を生成する。
一方、我々は、生成プロセスをさらに安定させ、視覚的品質を向上させるために、シンプルで効果的な2つの戦略(初期停止とビューパディング)を導入する。
次に、DreamJourneyは、多モーダルな言語モデルを利用して、現在のビューでオブジェクトの動きを記述するテキストプロンプトを生成し、ビデオ拡散モデルを使用して現在のビューをオブジェクトの動きでアニメーションする。
ステージIとステージIIは繰り返し繰り返され、永続的なダイナミックなシーンビュー生成を可能にする。
大規模な実験は、DreamJourneyが最先端の手法よりも定量的にも質的にも優れていることを実証している。
プロジェクトページ: https://dream-journey.vercel.app.com
関連論文リスト
- Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T08:54:50Z) - DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。
私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。
DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文 参考訳(メタデータ) (2024-05-03T17:55:34Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。