論文の概要: FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline
- arxiv url: http://arxiv.org/abs/2311.13073v2
- Date: Wed, 20 Dec 2023 15:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 18:49:06.949371
- Title: FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline
- Title(参考訳): FusionFrames: テキスト・ビデオ生成パイプラインの効率的なアーキテクチャ面
- Authors: Vladimir Arkhipkin, Zein Shaheen, Viacheslav Vasilev, Elizaveta
Dakhova, Andrey Kuznetsov, Denis Dimitrov
- Abstract要約: 本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
- 参考スコア(独自算出の注目度): 4.295130967329365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimedia generation approaches occupy a prominent place in artificial
intelligence research. Text-to-image models achieved high-quality results over
the last few years. However, video synthesis methods recently started to
develop. This paper presents a new two-stage latent diffusion text-to-video
generation architecture based on the text-to-image diffusion model. The first
stage concerns keyframes synthesis to figure the storyline of a video, while
the second one is devoted to interpolation frames generation to make movements
of the scene and objects smooth. We compare several temporal conditioning
approaches for keyframes generation. The results show the advantage of using
separate temporal blocks over temporal layers in terms of metrics reflecting
video generation quality aspects and human preference. The design of our
interpolation model significantly reduces computational costs compared to other
masked frame interpolation approaches. Furthermore, we evaluate different
configurations of MoVQ-based video decoding scheme to improve consistency and
achieve higher PSNR, SSIM, MSE, and LPIPS scores. Finally, we compare our
pipeline with existing solutions and achieve top-2 scores overall and top-1
among open-source solutions: CLIPSIM = 0.2976 and FVD = 433.054. Project page:
https://ai-forever.github.io/kandinsky-video/
- Abstract(参考訳): マルチメディア生成アプローチは人工知能研究において重要な位置を占める。
テキストから画像へのモデルはここ数年で高品質な結果を得た。
しかし、最近ビデオ合成法が発展し始めた。
本稿では,テキストから画像への拡散モデルに基づく2段階の潜在拡散テキスト対ビデオ生成アーキテクチャを提案する。
第1段階では、ビデオのストーリーラインを描くためのキーフレームの合成、第2段階はシーンとオブジェクトの動きをスムーズにするために補間フレームの生成に費やされる。
キーフレーム生成のための時間条件付け手法をいくつか比較した。
その結果,映像生成品質と人間の嗜好を反映する指標として,時間的レイヤ上で異なる時間的ブロックを使用することの利点が示された。
補間モデルの設計は,他のマスキングフレーム補間法と比較して計算コストを大幅に削減する。
さらに,PSNR,SSIM,MSE,LPIPSのスコアを向上するために,MoVQベースのビデオ復号方式の異なる構成を評価した。
最後に、当社のパイプラインを既存のソリューションと比較し、全体のtop-2スコアとtop-1をオープンソースソリューションで達成しました。
プロジェクトページ: https://ai-forever.github.io/kandinsky-video/
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - FILM: Frame Interpolation for Large Motion [20.04001872133824]
本稿では,2つの入力画像から複数の中間フレームを合成するフレームアルゴリズムを提案する。
提案手法は,Xiph大運動ベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-02-10T08:48:18Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - W-Cell-Net: Multi-frame Interpolation of Cellular Microscopy Videos [1.7205106391379026]
蛍光顕微鏡タイムラプス映画の時間分解能を高めるため,近年のディープ・ビデオ・コンボリューションを応用した。
我々の知る限り、2つの連続した顕微鏡画像間のフレームを生成するために、CNN(Conal Neural Networks)を用いた以前の研究はない。
論文 参考訳(メタデータ) (2020-05-14T01:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。