論文の概要: FIFO-Diffusion: Generating Infinite Videos from Text without Training
- arxiv url: http://arxiv.org/abs/2405.11473v2
- Date: Mon, 3 Jun 2024 03:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 14:29:15.593946
- Title: FIFO-Diffusion: Generating Infinite Videos from Text without Training
- Title(参考訳): FIFO拡散: トレーニングなしのテキストから無限のビデオを生成する
- Authors: Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han,
- Abstract要約: テキスト条件付きビデオ生成のための事前学習拡散モデルに基づく新しい推論手法を提案する。
FIFO拡散(FIFO-Diffusion)と呼ばれる我々の手法は、無限に長い動画を、追加の訓練なしで生成することができる。
提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。
- 参考スコア(独自算出の注目度): 44.65468310143439
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without additional training. This is achieved by iteratively performing diagonal denoising, which concurrently processes a series of consecutive frames with increasing noise levels in a queue; our method dequeues a fully denoised frame at the head while enqueuing a new random noise frame at the tail. However, diagonal denoising is a double-edged sword as the frames near the tail can take advantage of cleaner ones by forward reference but such a strategy induces the discrepancy between training and inference. Hence, we introduce latent partitioning to reduce the training-inference gap and lookahead denoising to leverage the benefit of forward referencing. Practically, FIFO-Diffusion consumes a constant amount of memory regardless of the target video length given a baseline model, while well-suited for parallel inference on multiple GPUs. We have demonstrated the promising results and effectiveness of the proposed methods on existing text-to-video generation baselines. Generated video samples and source codes are available at our project page.
- Abstract(参考訳): テキスト条件付きビデオ生成のための事前学習拡散モデルに基づく新しい推論手法を提案する。
FIFO拡散(FIFO-Diffusion)と呼ばれるこの手法は、無限に長いビデオを追加の訓練なしに生成できる。
この手法は,複数連続するフレームを同時に処理し,待ち行列のノイズレベルを増大させる対角的デノベーションを反復的に行うことで実現される。
しかし、尾部付近の枠は前方参照でより清潔なものを活用できるため、対角装飾は二重刃の剣であるが、そのような戦略は訓練と推論の相違を招きかねない。
したがって、トレーニングと推論のギャップを減らし、フォワード参照の利点を活かすために、遅延分割を導入する。
実際、FIFO-Diffusionはベースラインモデルが与えられたターゲットビデオ長に関わらず一定量のメモリを消費するが、複数のGPU上での並列推論には適している。
提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。
生成したビデオサンプルとソースコードは、プロジェクトページで公開されています。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。
最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。
本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-14T14:01:03Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Self-Supervised training for blind multi-frame video denoising [15.078027648304115]
マルチフレーム・ビデオ・デノゲーション・ネットワークを学習するための自己教師型アプローチを提案する。
提案手法は,予測フレームtと隣接するターゲットフレームとの損失をペナルティ化することにより,映像の時間的一貫性の恩恵を受ける。
論文 参考訳(メタデータ) (2020-04-15T09:08:09Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。