論文の概要: Mobile Video Diffusion
- arxiv url: http://arxiv.org/abs/2412.07583v1
- Date: Tue, 10 Dec 2024 15:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:56.180405
- Title: Mobile Video Diffusion
- Title(参考訳): モバイルビデオ拡散
- Authors: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian,
- Abstract要約: ビデオモデルは印象的なリアリズムと制御性を達成したが、計算要求によって制限されている。
本稿では,モバイル最適化ビデオ拡散モデルについて紹介する。
我々のモデルはMobileVDと呼ばれ、より効率が523倍(181対4.34 TFLOs)で、品質はわずかに低下する。
- 参考スコア(独自算出の注目度): 11.568267488097401
- License:
- Abstract: Video diffusion models have achieved impressive realism and controllability but are limited by high computational demands, restricting their use on mobile devices. This paper introduces the first mobile-optimized video diffusion model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD), we reduce memory and computational cost by reducing the frame resolution, incorporating multi-scale temporal representations, and introducing two novel pruning schema to reduce the number of channels and temporal blocks. Furthermore, we employ adversarial finetuning to reduce the denoising to a single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs. 4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/
- Abstract(参考訳): ビデオ拡散モデルは、印象的なリアリズムと制御性を達成したが、高い計算要求によって制限され、モバイルデバイスでの使用が制限されている。
本稿では,モバイル最適化ビデオ拡散モデルについて紹介する。
安定ビデオ拡散(SVD)の時空間UNetから始めて、フレーム解像度を小さくし、マルチスケールの時間表現を導入し、2つの新しいプルーニングスキーマを導入し、チャネル数と時間ブロック数を削減し、メモリと計算コストを削減する。
さらに, 逆方向のファインタニングを用いて, 騒音を1ステップに減らした。
われわれのモデルはMobileVDと呼ばれ、523倍の効率(4.34 TFLOPs対4.34 TFLOPs)で、わずかに品質低下(FVD 149 vs. 171)し、Xiaomi-14 Proで14x512x256 pxクリップを1.7秒でラテントを生成する。
私たちの結果はhttps://qualcomm-ai-research.github.io/mobile-video-diffusion/で公開されています。
関連論文リスト
- REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Progressive Autoregressive Video Diffusion Models [24.97019070991881]
アーキテクチャを変更することなく、既存のモデルを自動回帰ビデオ拡散モデルに自然に拡張できることを示す。
1分間(24FPSで1440フレーム)の長ビデオ生成の最先端結果を示す。
論文 参考訳(メタデータ) (2024-10-10T17:36:15Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding [38.60950616529459]
我々は,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークであるtextitSqueezeTime を提案する。
提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。
論文 参考訳(メタデータ) (2024-05-14T06:32:40Z) - Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。