論文の概要: CoNo: Consistency Noise Injection for Tuning-free Long Video Diffusion
- arxiv url: http://arxiv.org/abs/2406.05082v1
- Date: Fri, 7 Jun 2024 16:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:12:42.515208
- Title: CoNo: Consistency Noise Injection for Tuning-free Long Video Diffusion
- Title(参考訳): CoNo: チューニング不要長ビデオ拡散用コンシステンシーノイズインジェクション
- Authors: Xingrui Wang, Xin Li, Zhibo Chen,
- Abstract要約: ルークバック機構は、異なるビデオクリップ間の微粒なシーン遷移を促進する。
長期の整合性正規化は、拡張ビデオクリップの予測ノイズと元のノイズとの画素幅距離を明示的に最小化することに焦点を当てる。
単文および複数文のプロンプト条件下で長ビデオ生成を行うことによる戦略の有効性を示す実験を行った。
- 参考スコア(独自算出の注目度): 15.013908857230966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tuning-free long video diffusion has been proposed to generate extended-duration videos with enriched content by reusing the knowledge from pre-trained short video diffusion model without retraining. However, most works overlook the fine-grained long-term video consistency modeling, resulting in limited scene consistency (i.e., unreasonable object or background transitions), especially with multiple text inputs. To mitigate this, we propose the Consistency Noise Injection, dubbed CoNo, which introduces the "look-back" mechanism to enhance the fine-grained scene transition between different video clips, and designs the long-term consistency regularization to eliminate the content shifts when extending video contents through noise prediction. In particular, the "look-back" mechanism breaks the noise scheduling process into three essential parts, where one internal noise prediction part is injected into two video-extending parts, intending to achieve a fine-grained transition between two video clips. The long-term consistency regularization focuses on explicitly minimizing the pixel-wise distance between the predicted noises of the extended video clip and the original one, thereby preventing abrupt scene transitions. Extensive experiments have shown the effectiveness of the above strategies by performing long-video generation under both single- and multi-text prompt conditions. The project has been available in https://wxrui182.github.io/CoNo.github.io/.
- Abstract(参考訳): トレーニング済みの短いビデオ拡散モデルから知識を再利用することで、トレーニングなしの長いビデオ拡散を、コンテンツに富んだ拡張デューレーションビデオを生成する方法が提案されている。
しかし、ほとんどの研究は、特に複数のテキスト入力でシーンの一貫性(例えば、不合理なオブジェクトや背景遷移)が制限されるような、細かな長期的なビデオ一貫性のモデリングを見落としている。
そこで本研究では,異なる映像クリップ間の微粒化シーン遷移を促進させる「ルックバック」機構を導入した「CoNo」と呼ばれる一貫性雑音注入法を提案し,ノイズ予測による映像コンテンツ拡張時のコンテンツシフトを解消するために,長期的整合正則化を設計する。
特に、「見返り」機構は、ノイズスケジューリングプロセスを3つの必須部分に分割し、1つの内部ノイズ予測部を2つのビデオ押出部に注入し、2つのビデオクリップ間のきめ細かい遷移を実現する。
長期の整合性正規化は、拡張ビデオクリップの予測ノイズと元のノイズとの画素幅を明示的に最小化することに焦点を当て、急激なシーン遷移を防止する。
単文と複数文の両方のプロンプト条件下で長ビデオ生成を行うことにより, 上記の戦略の有効性を実証した。
このプロジェクトはhttps://wxrui182.github.io/CoNo.github.io/で公開されている。
関連論文リスト
- FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - SmoothVideo: Smooth Video Synthesis with Noise Constraints on Diffusion
Models for One-shot Video Tuning [18.979299814757997]
ワンショットビデオチューニング手法は、不整合と不整合によってマージされたビデオを生成する。
本稿では,ビデオフレーム間の簡易かつ効果的なノイズ制約を提案する。
既存のワンショットビデオチューニング手法にロスを適用することで、生成されたビデオの全体的な一貫性と滑らかさを大幅に改善する。
論文 参考訳(メタデータ) (2023-11-29T11:14:43Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。