Fugu-MT 論文翻訳(概要): Mobius: A High Efficient Spatial-Temporal Parallel Training Paradigm for Text-to-Video Generation Task

論文の概要: Mobius: A High Efficient Spatial-Temporal Parallel Training Paradigm for Text-to-Video Generation Task

arxiv url: http://arxiv.org/abs/2407.06617v4
Date: Tue, 23 Jul 2024 09:08:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 12:19:26.398275
Title: Mobius: A High Efficient Spatial-Temporal Parallel Training Paradigm for Text-to-Video Generation Task
Title（参考訳）: Mobius:テキスト・ビデオ生成タスクのための高能率空間時間並列学習パラダイム
Authors: Yiran Yang, Jinchao Zhang, Ying Deng, Jie Zhou,
Abstract要約: 多くの研究者がテキスト・トゥ・ビデオ(T2V)生成タスクに力を注いでいる。本稿では,T2Vタスクのための高効率な時空間並列訓練パラダイム Mobius を提案する。 Mobiusは24%のGPUメモリと12%のトレーニング時間を節約し、T2Vの微調整タスクを大幅に改善する。
参考スコア（独自算出の注目度）: 29.72095446868806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inspired by the success of the text-to-image (T2I) generation task, many researchers are devoting themselves to the text-to-video (T2V) generation task. Most of the T2V frameworks usually inherit from the T2I model and add extra-temporal layers of training to generate dynamic videos, which can be viewed as a fine-tuning task. However, the traditional 3D-Unet is a serial mode and the temporal layers follow the spatial layers, which will result in high GPU memory and training time consumption according to its serial feature flow. We believe that this serial mode will bring more training costs with the large diffusion model and massive datasets, which are not environmentally friendly and not suitable for the development of the T2V. Therefore, we propose a highly efficient spatial-temporal parallel training paradigm for T2V tasks, named Mobius. In our 3D-Unet, the temporal layers and spatial layers are parallel, which optimizes the feature flow and backpropagation. The Mobius will save 24% GPU memory and 12% training time, which can greatly improve the T2V fine-tuning task and provide a novel insight for the AIGC community. We will release our codes in the future.
Abstract（参考訳）: テキスト・トゥ・イメージ(T2I)生成タスクの成功に触発されて、多くの研究者がテキスト・トゥ・ビデオ(T2V)生成タスクに力を注いでいる。 T2Vフレームワークの多くは、通常、T2Iモデルから継承し、動的ビデオを生成するための時間外トレーニング層を追加します。しかし、従来の3D-Unetはシリアルモードであり、時空間層は空間層に追従する。我々は、このシリアルモードは、環境に優しいものではなく、T2Vの開発に適さない大規模な拡散モデルと大規模なデータセットで、より多くのトレーニングコストをもたらすと信じている。そこで本稿では,T2Vタスクのための高効率な時空間並列訓練パラダイムであるMobiusを提案する。我々の3D-Unetでは、時間層と空間層は並列であり、特徴フローとバックプロパゲーションを最適化する。 Mobiusは24%のGPUメモリと12%のトレーニング時間を節約し、T2Vの微調整タスクを大幅に改善し、AIGCコミュニティに新たな洞察を与える。将来、コードをリリースします。

関連論文リスト

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization [63.37161241355025]
Video-MSGはマルチモーダル計画と構造化雑音初期化に基づくT2V生成のトレーニング不要手法である。ノイズインバージョンとデノベーションを通じて、ビデオスケッチで下流のT2V拡散モデルを導出する。ビデオMSGは、推論時間にメモリを追加して微調整や注意操作を必要としないため、大きなT2Vモデルを採用するのが簡単である。
論文参考訳（メタデータ） (2025-04-11T15:41:43Z)
DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。 DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文参考訳（メタデータ） (2025-02-11T14:39:59Z)
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。特定の学習目標に対するデータセットの調整の重要性を強調した。トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文参考訳（メタデータ） (2024-10-08T04:30:06Z)
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models [94.25084162939488]
テキスト間拡散モデル(T2V)は、フレーム品質とテキストアライメントがまだ遅れている。我々は,T2Iの優れた機能を利用して,T2Vの性能を向上させる,トレーニングフリーでプラグアンドプレイの手法であるVideoElevatorを紹介した。
論文参考訳（メタデータ） (2024-03-08T16:44:54Z)
SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文参考訳（メタデータ） (2023-08-18T17:58:44Z)
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。 Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文参考訳（メタデータ） (2023-04-17T17:57:06Z)
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文参考訳（メタデータ） (2022-12-22T09:43:36Z)
Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文参考訳（メタデータ） (2022-09-29T13:59:46Z)
TSM: Temporal Shift Module for Efficient and Scalable Video Understanding on Edge Device [58.776352999540435]
本稿では,高能率かつ高能率な時間シフトモジュール(TSM)を提案する。 TSMは2次元CNNに挿入され、ゼロ計算とゼロパラメータでの時間的モデリングを実現する。 Jetson NanoとGalaxy Note8のオンラインビデオ認識では、74fpsと29fpsのハイフレームレートを実現している。
論文参考訳（メタデータ） (2021-09-27T17:59:39Z)
STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。 STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文参考訳（メタデータ） (2020-03-18T04:46:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。