論文の概要: SimDA: Simple Diffusion Adapter for Efficient Video Generation
- arxiv url: http://arxiv.org/abs/2308.09710v1
- Date: Fri, 18 Aug 2023 17:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:07:56.853348
- Title: SimDA: Simple Diffusion Adapter for Efficient Video Generation
- Title(参考訳): SimDA: 効率的なビデオ生成のための簡易拡散アダプタ
- Authors: Zhen Xing, Qi Dai, Han Hu, Zuxuan Wu, Yu-Gang Jiang
- Abstract要約: 本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
- 参考スコア(独自算出の注目度): 102.90154301044095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent wave of AI-generated content has witnessed the great development
and success of Text-to-Image (T2I) technologies. By contrast, Text-to-Video
(T2V) still falls short of expectations though attracting increasing interests.
Existing works either train from scratch or adapt large T2I model to videos,
both of which are computation and resource expensive. In this work, we propose
a Simple Diffusion Adapter (SimDA) that fine-tunes only 24M out of 1.1B
parameters of a strong T2I model, adapting it to video generation in a
parameter-efficient way. In particular, we turn the T2I model for T2V by
designing light-weight spatial and temporal adapters for transfer learning.
Besides, we change the original spatial attention to the proposed Latent-Shift
Attention (LSA) for temporal consistency. With similar model architecture, we
further train a video super-resolution model to generate high-definition
(1024x1024) videos. In addition to T2V generation in the wild, SimDA could also
be utilized in one-shot video editing with only 2 minutes tuning. Doing so, our
method could minimize the training effort with extremely few tunable parameters
for model adaptation.
- Abstract(参考訳): 最近のAI生成コンテンツの波は、テキスト・トゥ・イメージ(T2I)技術の発展と成功を目撃している。
対照的に、Text-to-Video(T2V)は依然として期待を裏切っている。
既存の作業は、スクラッチからトレーニングするか、大きなT2Iモデルをビデオに適用する。
本研究では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応するSimple Diffusion Adapter (SimDA)を提案する。
特に,T2VのT2Iモデルでは,トランスファー学習のための軽量な空間的および時間的アダプタを設計する。
また,時間的整合性のため,空間的注意をLatent-Shift Attention (LSA) に変更した。
類似したモデルアーキテクチャにより,高精細 (1024x1024) ビデオを生成するビデオスーパーレゾリューションモデルをさらに訓練する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
これにより、モデル適応のための調整可能なパラメータが極めて少ないため、トレーニング作業を最小限に抑えることができる。
関連論文リスト
- FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。
本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。
本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - Still-Moving: Customized Video Generation without Customized Video Data [81.09302547183155]
テキスト・トゥ・ビデオ(T2V)モデルをカスタマイズするための新しいフレームワークであるStill-Movingを紹介する。
このフレームワークは、ビデオモデルをテキスト・トゥ・イメージ(T2I)モデル上に構築する、著名なT2V設計に適用される。
私たちは、注入されたT2I層によって生成された機能を調整する軽量な$textitSpatial Adapters$をトレーニングします。
論文 参考訳(メタデータ) (2024-07-11T17:06:53Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - VideoElevator: Elevating Video Generation Quality with Versatile
Text-to-Image Diffusion Models [94.25084162939488]
テキスト間拡散モデル(T2V)は、フレーム品質とテキストアライメントがまだ遅れている。
我々は,T2Iの優れた機能を利用して,T2Vの性能を向上させる,トレーニングフリーでプラグアンドプレイの手法であるVideoElevatorを紹介した。
論文 参考訳(メタデータ) (2024-03-08T16:44:54Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。