Fugu-MT 論文翻訳(概要): Mobile Video Diffusion

論文の概要: Mobile Video Diffusion

arxiv url: http://arxiv.org/abs/2412.07583v1
Date: Tue, 10 Dec 2024 15:19:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.403771
Title: Mobile Video Diffusion
Title（参考訳）: モバイルビデオ拡散
Authors: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian,
Abstract要約: ビデオモデルは印象的なリアリズムと制御性を達成したが、計算要求によって制限されている。本稿では,モバイル最適化ビデオ拡散モデルについて紹介する。我々のモデルはMobileVDと呼ばれ、より効率が523倍(181対4.34 TFLOs)で、品質はわずかに低下する。
参考スコア（独自算出の注目度）: 11.568267488097401
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video diffusion models have achieved impressive realism and controllability but are limited by high computational demands, restricting their use on mobile devices. This paper introduces the first mobile-optimized video diffusion model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD), we reduce memory and computational cost by reducing the frame resolution, incorporating multi-scale temporal representations, and introducing two novel pruning schema to reduce the number of channels and temporal blocks. Furthermore, we employ adversarial finetuning to reduce the denoising to a single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs. 4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/
Abstract（参考訳）: ビデオ拡散モデルは、印象的なリアリズムと制御性を達成したが、高い計算要求によって制限され、モバイルデバイスでの使用が制限されている。本稿では,モバイル最適化ビデオ拡散モデルについて紹介する。安定ビデオ拡散(SVD)の時空間UNetから始めて、フレーム解像度を小さくし、マルチスケールの時間表現を導入し、2つの新しいプルーニングスキーマを導入し、チャネル数と時間ブロック数を削減し、メモリと計算コストを削減する。さらに, 逆方向のファインタニングを用いて, 騒音を1ステップに減らした。われわれのモデルはMobileVDと呼ばれ、523倍の効率(4.34 TFLOPs対4.34 TFLOPs)で、わずかに品質低下(FVD 149 vs. 171)し、Xiaomi-14 Proで14x512x256 pxクリップを1.7秒でラテントを生成する。私たちの結果はhttps://qualcomm-ai-research.github.io/mobile-video-diffusion/で公開されています。

関連論文リスト

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation [4.261090951843438]
ビデオフレーム補間(VFI)は、2つの連続する隣接するフレームに基づいて中間フレーム$I_n$を予測することを目的としている。近年,この課題に拡散モデル(画像ベースとビデオベースの両方)を適用し,高い性能を実現している。ビデオフレーム補間(TLB-VFI)のための時間対応ラテントブラウン橋拡散モデルを提案する。
論文参考訳（メタデータ） (2025-07-07T13:25:32Z)
LLIA -- Enabling Low-Latency Interactive Avatars: Real-Time Audio-Driven Portrait Video Generation with Diffusion Models [17.858801012726445]
拡散に基づくモデルは、その卓越した表現力のために、仮想人間世代に広く採用されている。本稿では,これらの課題に対処するための拡散モデルに基づく,新しいオーディオ駆動型ポートレートビデオ生成フレームワークを提案する。本モデルでは,解像度384x384,解像度512x512で最大78FPS,ビデオ生成遅延140msと215msで最大78FPSを実現している。
論文参考訳（メタデータ） (2025-06-06T07:09:07Z)
LTX-Video: Realtime Video Latent Diffusion [4.7789714048042775]
LTX-Videoはトランスフォーマーベースの潜在拡散モデルである。 Video-VAEとDenoising Transformerをシームレスに統合する。 Nvidia H100 GPU上では、24fpsのビデオ768 atx512の解像度をわずか2秒で生成する。
論文参考訳（メタデータ） (2024-12-30T19:00:25Z)
SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device [61.42406720183769]
本稿では,大規模ビデオ拡散モデルのパワーをエッジユーザーにもたらすための包括的加速フレームワークを提案する。我々のモデルは0.6Bのパラメータしか持たないため、iPhone 16 PMで5秒以内に5秒のビデオを生成することができる。
論文参考訳（メタデータ） (2024-12-13T18:59:56Z)
From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文参考訳（メタデータ） (2024-12-10T18:59:50Z)
REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文参考訳（メタデータ） (2024-11-20T18:59:52Z)
Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文参考訳（メタデータ） (2024-11-04T18:59:44Z)
Progressive Autoregressive Video Diffusion Models [24.97019070991881]
アーキテクチャを変更することなく、既存のモデルを自動回帰ビデオ拡散モデルに自然に拡張できることを示す。 1分間(24FPSで1440フレーム)の長ビデオ生成の最先端結果を示す。
論文参考訳（メタデータ） (2024-10-10T17:36:15Z)
Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文参考訳（メタデータ） (2024-06-12T01:12:53Z)
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。 CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文参考訳（メタデータ） (2024-03-21T05:48:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。