論文の概要: FastInit: Fast Noise Initialization for Temporally Consistent Video Generation
- arxiv url: http://arxiv.org/abs/2506.16119v1
- Date: Thu, 19 Jun 2025 08:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.990412
- Title: FastInit: Fast Noise Initialization for Temporally Consistent Video Generation
- Title(参考訳): FastInit: 時間的に一貫したビデオ生成のための高速ノイズ初期化
- Authors: Chengyu Bai, Yuming Li, Zhongyu Zhao, Jintao Chen, Peidong Jia, Qi She, Ming Lu, Shanghang Zhang,
- Abstract要約: 我々は、推論中に反復的な洗練の必要性をなくすFastInitを紹介する。
FastInitは、フレーム間の高時間一貫性を実現しつつ、ビデオ生成の効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 27.825641236811887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation has made significant strides with the development of diffusion models; however, achieving high temporal consistency remains a challenging task. Recently, FreeInit identified a training-inference gap and introduced a method to iteratively refine the initial noise during inference. However, iterative refinement significantly increases the computational cost associated with video generation. In this paper, we introduce FastInit, a fast noise initialization method that eliminates the need for iterative refinement. FastInit learns a Video Noise Prediction Network (VNPNet) that takes random noise and a text prompt as input, generating refined noise in a single forward pass. Therefore, FastInit greatly enhances the efficiency of video generation while achieving high temporal consistency across frames. To train the VNPNet, we create a large-scale dataset consisting of pairs of text prompts, random noise, and refined noise. Extensive experiments with various text-to-video models show that our method consistently improves the quality and temporal consistency of the generated videos. FastInit not only provides a substantial improvement in video generation but also offers a practical solution that can be applied directly during inference. The code and dataset will be released.
- Abstract(参考訳): ビデオ生成は拡散モデルの発展に大きく貢献しているが、高い時間的一貫性を達成することは難しい課題である。
最近、FreeInitはトレーニングと推論のギャップを特定し、推論中に初期ノイズを反復的に改善する方法を導入した。
しかし、反復改善はビデオ生成に伴う計算コストを大幅に向上させる。
本稿では,高速ノイズ初期化手法であるFastInitを紹介する。
FastInitは、ランダムノイズとテキストプロンプトを入力として取り出すビデオノイズ予測ネットワーク(VNPNet)を学習し、単一のフォワードパスで洗練されたノイズを生成する。
したがって、FastInitはフレーム間の時間的一貫性を高く保ちながら、ビデオ生成の効率を大幅に向上させる。
VNPNetをトレーニングするために、テキストプロンプトのペア、ランダムノイズ、洗練されたノイズからなる大規模なデータセットを作成します。
様々なテキスト・ビデオ・モデルによる大規模な実験により、本手法は生成したビデオの品質と時間的一貫性を一貫して改善することを示した。
FastInitはビデオ生成を大幅に改善するだけでなく、推論中に直接適用可能な実用的なソリューションも提供する。
コードとデータセットがリリースされる。
関連論文リスト
- ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos [41.45750971432533]
ビデオ拡散モデル(VDM)は高品質のビデオの生成を容易にする。
近年,映像の質を高める「金音」の存在が報告されている。
本研究では,拡散サンプリングプロセスにおける黄金の初期雑音を識別する,プラグアンドプレイの推論時間探索手法であるScalingNoiseを提案する。
論文 参考訳(メタデータ) (2025-03-20T17:54:37Z) - Enhancing Multi-Text Long Video Generation Consistency without Tuning: Time-Frequency Analysis, Prompt Alignment, and Theory [92.1714656167712]
本稿では,単一または複数プロンプトで生成されたビデオの一貫性とコヒーレンスを高めるため,時間的注意強調アルゴリズム(TiARA)を提案する。
本手法は拡散モデルにおける周波数に基づく手法の第一種である理論的保証によって支持される。
複数のプロンプトが生成するビデオについては、プロンプト品質に影響を及ぼす重要な要因をさらに調査し、プロンプトブレンド(PromptBlend)という高度なビデオプロンプトパイプラインを提案する。
論文 参考訳(メタデータ) (2024-12-23T03:56:27Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation [11.556147036111222]
本稿では、ノイズやテキストを含む2つの入力プロンプトを改善し、拡散に基づくテキスト・ビデオ生成を改善することを目的とする。
テキスト・ツー・ビデオ・モデルを改善するためのトレーニング不要な Prompt Optimization Suite であるPOS を提案する。
論文 参考訳(メタデータ) (2023-11-02T02:33:09Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。