Fugu-MT 論文翻訳(概要): SimDA: Simple Diffusion Adapter for Efficient Video Generation

論文の概要: SimDA: Simple Diffusion Adapter for Efficient Video Generation

arxiv url: http://arxiv.org/abs/2308.09710v1
Date: Fri, 18 Aug 2023 17:58:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 12:07:56.853348
Title: SimDA: Simple Diffusion Adapter for Efficient Video Generation
Title（参考訳）: SimDA: 効率的なビデオ生成のための簡易拡散アダプタ
Authors: Zhen Xing, Qi Dai, Han Hu, Zuxuan Wu, Yu-Gang Jiang
Abstract要約: 本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
参考スコア（独自算出の注目度）: 102.90154301044095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent wave of AI-generated content has witnessed the great development and success of Text-to-Image (T2I) technologies. By contrast, Text-to-Video (T2V) still falls short of expectations though attracting increasing interests. Existing works either train from scratch or adapt large T2I model to videos, both of which are computation and resource expensive. In this work, we propose a Simple Diffusion Adapter (SimDA) that fine-tunes only 24M out of 1.1B parameters of a strong T2I model, adapting it to video generation in a parameter-efficient way. In particular, we turn the T2I model for T2V by designing light-weight spatial and temporal adapters for transfer learning. Besides, we change the original spatial attention to the proposed Latent-Shift Attention (LSA) for temporal consistency. With similar model architecture, we further train a video super-resolution model to generate high-definition (1024x1024) videos. In addition to T2V generation in the wild, SimDA could also be utilized in one-shot video editing with only 2 minutes tuning. Doing so, our method could minimize the training effort with extremely few tunable parameters for model adaptation.
Abstract（参考訳）: 最近のAI生成コンテンツの波は、テキスト・トゥ・イメージ(T2I)技術の発展と成功を目撃している。対照的に、Text-to-Video(T2V)は依然として期待を裏切っている。既存の作業は、スクラッチからトレーニングするか、大きなT2Iモデルをビデオに適用する。本研究では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応するSimple Diffusion Adapter (SimDA)を提案する。特に,T2VのT2Iモデルでは,トランスファー学習のための軽量な空間的および時間的アダプタを設計する。また,時間的整合性のため,空間的注意をLatent-Shift Attention (LSA) に変更した。類似したモデルアーキテクチャにより,高精細 (1024x1024) ビデオを生成するビデオスーパーレゾリューションモデルをさらに訓練する。野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。これにより、モデル適応のための調整可能なパラメータが極めて少ないため、トレーニング作業を最小限に抑えることができる。

関連論文リスト

Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis [14.980220974022982]
本稿では,T2IモデルとT2Vモデルを構成するトレーニング不要なカプセル化ビデオ合成装置であるEVSを紹介し,視覚的忠実度と動きの滑らかさを両立させる。提案手法は,低品質ビデオフレームを改良するために,よく訓練された拡散ベースT2Iモデルを用いる。また、一貫した運動力学を保証するためにT2Vバックボーンを用いる。
論文参考訳（メタデータ） (2025-07-18T08:59:02Z)
STIV: Scalable Text and Image Conditioned Video Generation [84.2574247093223]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。 STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文参考訳（メタデータ） (2024-12-10T18:27:06Z)
FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文参考訳（メタデータ） (2024-10-20T12:10:24Z)
Still-Moving: Customized Video Generation without Customized Video Data [81.09302547183155]
テキスト・トゥ・ビデオ(T2V)モデルをカスタマイズするための新しいフレームワークであるStill-Movingを紹介する。このフレームワークは、ビデオモデルをテキスト・トゥ・イメージ(T2I)モデル上に構築する、著名なT2V設計に適用される。私たちは、注入されたT2I層によって生成された機能を調整する軽量な$textitSpatial Adapters$をトレーニングします。
論文参考訳（メタデータ） (2024-07-11T17:06:53Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models [94.25084162939488]
テキスト間拡散モデル(T2V)は、フレーム品質とテキストアライメントがまだ遅れている。我々は,T2Iの優れた機能を利用して,T2Vの性能を向上させる,トレーニングフリーでプラグアンドプレイの手法であるVideoElevatorを紹介した。
論文参考訳（メタデータ） (2024-03-08T16:44:54Z)
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文参考訳（メタデータ） (2022-12-22T09:43:36Z)
Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文参考訳（メタデータ） (2022-09-29T13:59:46Z)
MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。 MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文参考訳（メタデータ） (2020-12-13T06:34:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。