論文の概要: Taming Diffusion Transformer for Real-Time Mobile Video Generation
- arxiv url: http://arxiv.org/abs/2507.13343v1
- Date: Thu, 17 Jul 2025 17:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.614937
- Title: Taming Diffusion Transformer for Real-Time Mobile Video Generation
- Title(参考訳): リアルタイムモバイルビデオ生成のためのターミング拡散変換器
- Authors: Yushu Wu, Yanyu Li, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ke Ma, Arpit Sahni, Ju Hu, Aliaksandr Siarohin, Dhritiman Sagar, Yanzhi Wang, Sergey Tulyakov,
- Abstract要約: Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。
本稿では,ビデオ生成の高速化とモバイルプラットフォーム上でのリアルタイムパフォーマンスの実現を目的とした,新しい最適化手法を提案する。
- 参考スコア(独自算出の注目度): 72.20660234882594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiT) have shown strong performance in video generation tasks, but their high computational cost makes them impractical for resource-constrained devices like smartphones, and real-time generation is even more challenging. In this work, we propose a series of novel optimizations to significantly accelerate video generation and enable real-time performance on mobile platforms. First, we employ a highly compressed variational autoencoder (VAE) to reduce the dimensionality of the input data without sacrificing visual quality. Second, we introduce a KD-guided, sensitivity-aware tri-level pruning strategy to shrink the model size to suit mobile platform while preserving critical performance characteristics. Third, we develop an adversarial step distillation technique tailored for DiT, which allows us to reduce the number of inference steps to four. Combined, these optimizations enable our model to achieve over 10 frames per second (FPS) generation on an iPhone 16 Pro Max, demonstrating the feasibility of real-time, high-quality video generation on mobile devices.
- Abstract(参考訳): Diffusion Transformer (DiT) は、ビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストにより、スマートフォンのようなリソース制約のあるデバイスでは非現実的になり、リアルタイム生成はさらに困難である。
本研究では,ビデオ生成の大幅な高速化と,モバイルプラットフォーム上でのリアルタイムパフォーマンスを実現するための新しい最適化手法を提案する。
まず、高度に圧縮された変分オートエンコーダ(VAE)を用いて、視覚的品質を犠牲にすることなく、入力データの寸法を小さくする。
第二に,KD誘導型三段階プルーニング方式を導入し,重要な性能特性を保ちながら,モデルサイズをモバイルプラットフォームに適したものに縮小する。
第3に,DiTに適した逆ステップ蒸留技術を開発し,推論ステップ数を4に削減する。
これらの最適化を組み合わせることで,iPhone 16 Pro Max上で10フレーム/秒(FPS)以上の生成を実現し,モバイルデバイス上でのリアルタイム,高品質なビデオ生成の実現可能性を示す。
関連論文リスト
- DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices [3.034710104407876]
In-device Soraは拡散型オンデバイス・テキスト・ビデオ・ジェネレーションのための最初のモデルフリー・トレーニング・ソリューションである。
また,iPhone 15 ProでオンデバイスSoraを実装し,実験結果から高品質な動画を生成可能であることが示された。
論文 参考訳(メタデータ) (2025-03-31T07:19:09Z) - On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices [3.034710104407876]
In-device Soraは拡散型オンデバイス・テキスト・ビデオ・ジェネレーションのための最初のモデルフリー・トレーニング・ソリューションである。
また,iPhone 15 ProでオンデバイスSoraを実装し,実験結果から高品質な動画を生成可能であることが示された。
論文 参考訳(メタデータ) (2025-02-05T05:42:29Z) - SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device [61.42406720183769]
本稿では,大規模ビデオ拡散モデルのパワーをエッジユーザーにもたらすための包括的加速フレームワークを提案する。
我々のモデルは0.6Bのパラメータしか持たないため、iPhone 16 PMで5秒以内に5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2024-12-13T18:59:56Z) - Factorized Video Autoencoders for Efficient Generative Modelling [44.00676320678128]
本稿では,入力サイズと直交的に成長する4平面の因数分解潜在空間にデータを投影するオートエンコーダを提案する。
提案した4面ラテント空間は高忠実度再構成に必要なリッチな表現を保っていることを示す。
論文 参考訳(メタデータ) (2024-12-05T18:58:17Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Real-Time Video Inference on Edge Devices via Adaptive Model Streaming [9.101956442584251]
携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。
本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。