Fugu-MT 論文翻訳(概要): FIFO-Diffusion: Generating Infinite Videos from Text without Training

論文の概要: FIFO-Diffusion: Generating Infinite Videos from Text without Training

arxiv url: http://arxiv.org/abs/2405.11473v4
Date: Sun, 03 Nov 2024 12:40:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.468547
Title: FIFO-Diffusion: Generating Infinite Videos from Text without Training
Title（参考訳）: FIFO拡散: トレーニングなしのテキストから無限のビデオを生成する
Authors: Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han,
Abstract要約: FIFO-Diffusionは概念的には、追加のトレーニングなしで無限に長いビデオを生成することができる。提案手法では, 頭部に完全に識別されたフレームを列挙し, 尾部に新しいランダムノイズフレームを列挙する。提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。
参考スコア（独自算出の注目度）: 44.65468310143439
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without additional training. This is achieved by iteratively performing diagonal denoising, which simultaneously processes a series of consecutive frames with increasing noise levels in a queue; our method dequeues a fully denoised frame at the head while enqueuing a new random noise frame at the tail. However, diagonal denoising is a double-edged sword as the frames near the tail can take advantage of cleaner frames by forward reference but such a strategy induces the discrepancy between training and inference. Hence, we introduce latent partitioning to reduce the training-inference gap and lookahead denoising to leverage the benefit of forward referencing. Practically, FIFO-Diffusion consumes a constant amount of memory regardless of the target video length given a baseline model, while well-suited for parallel inference on multiple GPUs. We have demonstrated the promising results and effectiveness of the proposed methods on existing text-to-video generation baselines. Generated video examples and source codes are available at our project page.
Abstract（参考訳）: テキスト条件付きビデオ生成のための事前学習拡散モデルに基づく新しい推論手法を提案する。 FIFO拡散(FIFO-Diffusion)と呼ばれるこの手法は、無限に長いビデオを追加の訓練なしに生成できる。この手法は,複数連続するフレームを同時に処理し,待ち行列のノイズレベルを増大させる対角デノナイジングを反復的に行うことで実現される。しかし、尾部付近のフレームは前方参照によってより清潔なフレームを活用できるため、対角的装飾は両刃の剣であり、訓練と推論の相違を招きかねない。したがって、トレーニングと推論のギャップを減らし、フォワード参照の利点を活かすために、遅延分割を導入する。実際、FIFO-Diffusionはベースラインモデルが与えられたターゲットビデオ長に関わらず一定量のメモリを消費するが、複数のGPU上での並列推論には適している。提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。生成したビデオ例とソースコードは、プロジェクトページで公開されています。

関連論文リスト

Mobius: Text to Seamless Looping Video Generation via Latent Shift [50.04534295458244]
ユーザアノテーションを使わずにテキスト記述から直接シームレスにループするビデオを生成する新しい方法であるMobiusを提案する。本手法では,事前学習したビデオ遅延拡散モデルを用いて,テキストプロンプトからループ映像を生成する。
論文参考訳（メタデータ） (2025-02-27T17:33:51Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声-視覚音声強調(AVSE)手法を提案する。拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き生成型AVSE法よりも優れていたことが確認された。
論文参考訳（メタデータ） (2024-10-04T12:22:54Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文参考訳（メタデータ） (2023-12-07T06:53:25Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)
Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-14T14:01:03Z)
Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文参考訳（メタデータ） (2022-02-24T23:51:36Z)
Self-Supervised training for blind multi-frame video denoising [15.078027648304115]
マルチフレーム・ビデオ・デノゲーション・ネットワークを学習するための自己教師型アプローチを提案する。提案手法は,予測フレームtと隣接するターゲットフレームとの損失をペナルティ化することにより,映像の時間的一貫性の恩恵を受ける。
論文参考訳（メタデータ） (2020-04-15T09:08:09Z)
Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文参考訳（メタデータ） (2020-02-26T12:24:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。