論文の概要: FlashVideo: A Framework for Swift Inference in Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2401.00869v1
- Date: Sat, 30 Dec 2023 00:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:37:00.954540
- Title: FlashVideo: A Framework for Swift Inference in Text-to-Video Generation
- Title(参考訳): FlashVideo: テキスト対ビデオ生成におけるSwift推論フレームワーク
- Authors: Bin Lei, le Chen, Caiwen Ding
- Abstract要約: 本稿では,高速テキスト・ツー・ビデオ生成に適した新しいフレームワークであるFlashVideoを紹介する。
FlashVideoは推論の時間的複雑さを$mathcalO(L2)$から$mathcalO(L)$に減らし、推論速度を大幅に加速する。
包括的な実験により、FlashVideoは従来の自己回帰型トランスモデルよりも$times9.17$改善され、推論速度はBERTベースのトランスモデルと同じ桁であることが示された。
- 参考スコア(独自算出の注目度): 9.665089218030086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the evolving field of machine learning, video generation has witnessed
significant advancements with autoregressive-based transformer models and
diffusion models, known for synthesizing dynamic and realistic scenes. However,
these models often face challenges with prolonged inference times, even for
generating short video clips such as GIFs. This paper introduces FlashVideo, a
novel framework tailored for swift Text-to-Video generation. FlashVideo
represents the first successful adaptation of the RetNet architecture for video
generation, bringing a unique approach to the field. Leveraging the
RetNet-based architecture, FlashVideo reduces the time complexity of inference
from $\mathcal{O}(L^2)$ to $\mathcal{O}(L)$ for a sequence of length $L$,
significantly accelerating inference speed. Additionally, we adopt a
redundant-free frame interpolation method, enhancing the efficiency of frame
interpolation. Our comprehensive experiments demonstrate that FlashVideo
achieves a $\times9.17$ efficiency improvement over a traditional
autoregressive-based transformer model, and its inference speed is of the same
order of magnitude as that of BERT-based transformer models.
- Abstract(参考訳): 進化する機械学習の分野において、ビデオ生成は、動的かつ現実的なシーンを合成することで知られる自己回帰に基づくトランスフォーマーモデルと拡散モデルで大きな進歩を遂げている。
しかし、これらのモデルは、GIFのような短いビデオクリップを生成する場合でも、長い推論時間で困難に直面することが多い。
本稿では,swift テキスト対ビデオ生成のための新しいフレームワーク flashvideo を紹介する。
FlashVideoは、ビデオ生成のためのRetNetアーキテクチャの最初の成功例であり、フィールドにユニークなアプローチをもたらす。
RetNetベースのアーキテクチャを活用すると、FlashVideoは推論の時間的複雑さを$\mathcal{O}(L^2)$から$\mathcal{O}(L)$に減らし、推論速度を大幅に加速する。
さらに,フレーム補間効率を向上させるために,冗長なフレーム補間手法を採用する。
包括的な実験により、FlashVideoは従来の自己回帰型トランスモデルよりも$\times9.17$の効率向上を実現しており、推論速度はBERTベースのトランスモデルと同じ桁であることが示された。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Video Transformer Network [0.0]
本稿では,ビデオ認識のためのトランスフォーマーベースのフレームワークを提案する。
近年の視覚変換器の発展に触発されて、3D ConvNetに依存するビデオアクション認識の標準的アプローチを廃止する。
われわれのアプローチは汎用的で、任意の2次元空間ネットワーク上に構築されている。
論文 参考訳(メタデータ) (2021-02-01T09:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。