論文の概要: DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation
- arxiv url: http://arxiv.org/abs/2503.06053v1
- Date: Sat, 08 Mar 2025 04:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:00.612391
- Title: DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation
- Title(参考訳): DropletVideo: 統合時空間一貫性ビデオ生成のためのデータセットとアプローチ
- Authors: Runze Zhang, Guoguang Du, Xiaochuan Li, Qi Jia, Liang Jin, Lu Liu, Jingjing Wang, Cong Xu, Zhenhua Guo, Yaqian Zhao, Xiaoli Gong, Rengang Li, Baoyu Fan,
- Abstract要約: S時間一貫性はビデオ生成において重要な研究課題である。
本稿では,プロット進行とカメラ技術との相乗性を考慮した積分時間整合性を導入する。
ビデオ生成時の動的時間的コヒーレンス保存に優れたDropletVideoモデルを開発し,訓練する。
- 参考スコア(独自算出の注目度): 20.512252799625685
- License:
- Abstract: Spatio-temporal consistency is a critical research topic in video generation. A qualified generated video segment must ensure plot plausibility and coherence while maintaining visual consistency of objects and scenes across varying viewpoints. Prior research, especially in open-source projects, primarily focuses on either temporal or spatial consistency, or their basic combination, such as appending a description of a camera movement after a prompt without constraining the outcomes of this movement. However, camera movement may introduce new objects to the scene or eliminate existing ones, thereby overlaying and affecting the preceding narrative. Especially in videos with numerous camera movements, the interplay between multiple plots becomes increasingly complex. This paper introduces and examines integral spatio-temporal consistency, considering the synergy between plot progression and camera techniques, and the long-term impact of prior content on subsequent generation. Our research encompasses dataset construction through to the development of the model. Initially, we constructed a DropletVideo-10M dataset, which comprises 10 million videos featuring dynamic camera motion and object actions. Each video is annotated with an average caption of 206 words, detailing various camera movements and plot developments. Following this, we developed and trained the DropletVideo model, which excels in preserving spatio-temporal coherence during video generation. The DropletVideo dataset and model are accessible at https://dropletx.github.io.
- Abstract(参考訳): 時空間一貫性はビデオ生成において重要な研究課題である。
資格付き生成されたビデオセグメントは、様々な視点でオブジェクトやシーンの視覚的一貫性を維持しながら、プロットの妥当性とコヒーレンスを確保する必要がある。
以前の研究、特にオープンソースプロジェクトでは、主に時間的・空間的整合性、あるいはその基本的な組み合わせに焦点を当てており、例えば、この運動の結果を制約することなくプロンプトの後にカメラの動きの説明を追加するなどである。
しかし、カメラの動きはシーンに新しいオブジェクトを導入したり、既存のオブジェクトを排除したりすることで、前の物語をオーバーレイし、影響を及ぼしたりすることができる。
特に多数のカメラの動きを持つビデオでは、複数のプロット間の相互作用がますます複雑になる。
本稿では,プロット進行とカメラ技術間の相乗効果,および先行コンテンツがその後の生成に与える影響を考慮し,統合時空間整合性について考察する。
我々の研究は、モデルの開発を通じてデータセットの構築を含んでいる。
最初はDropletVideo-10Mデータセットを構築しました。
各ビデオは平均206ワードのキャプションで注釈付けされ、様々なカメラの動きとプロットの展開を詳述している。
次に,ビデオ生成時の時空間コヒーレンス保存に優れたDropletVideoモデルを開発した。
DropletVideoのデータセットとモデルはhttps://dropletx.github.io.comでアクセスできる。
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - ActAnywhere: Subject-Aware Video Background Generation [62.57759679425924]
映画産業や視覚効果のコミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
この課題は、前景の主題の動きと外観と整合する背景と、芸術家の創造的な意図に合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
論文 参考訳(メタデータ) (2024-01-19T17:16:16Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。