論文の概要: Turbo-VAED: Fast and Stable Transfer of Video-VAEs to Mobile Devices
- arxiv url: http://arxiv.org/abs/2508.09136v1
- Date: Tue, 12 Aug 2025 17:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.539624
- Title: Turbo-VAED: Fast and Stable Transfer of Video-VAEs to Mobile Devices
- Title(参考訳): Turbo-VAED: ビデオVAEをモバイルデバイスに高速かつ安定に転送する
- Authors: Ya Zou, Jingfeng Yao, Siyuan Yu, Shuai Zhang, Wenyu Liu, Xinggang Wang,
- Abstract要約: 本稿では,広く使用されているビデオVAEをモバイルデバイスに効率的に転送する,低コストなソリューションを提案する。
本手法により,モバイル端末上でのリアルタイム720pビデオVAEデコーディングが可能となった。
Turbo-VAEDはFPSの2.9倍のスピードアップを実現し、iPhone 16 Proの再現性も向上した。
- 参考スコア(独自算出の注目度): 36.637983575162075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: There is a growing demand for deploying large generative AI models on mobile devices. For recent popular video generative models, however, the Variational AutoEncoder (VAE) represents one of the major computational bottlenecks. Both large parameter sizes and mismatched kernels cause out-of-memory errors or extremely slow inference on mobile devices. To address this, we propose a low-cost solution that efficiently transfers widely used video VAEs to mobile devices. (1) We analyze redundancy in existing VAE architectures and get empirical design insights. By integrating 3D depthwise separable convolutions into our model, we significantly reduce the number of parameters. (2) We observe that the upsampling techniques in mainstream video VAEs are poorly suited to mobile hardware and form the main bottleneck. In response, we propose a decoupled 3D pixel shuffle scheme that slashes end-to-end delay. Building upon these, we develop a universal mobile-oriented VAE decoder, Turbo-VAED. (3) We propose an efficient VAE decoder training method. Since only the decoder is used during deployment, we distill it to Turbo-VAED instead of retraining the full VAE, enabling fast mobile adaptation with minimal performance loss. To our knowledge, our method enables real-time 720p video VAE decoding on mobile devices for the first time. This approach is widely applicable to most video VAEs. When integrated into four representative models, with training cost as low as $95, it accelerates original VAEs by up to 84.5x at 720p resolution on GPUs, uses as low as 17.5% of original parameter count, and retains 96.9% of the original reconstruction quality. Compared to mobile-optimized VAEs, Turbo-VAED achieves a 2.9x speedup in FPS and better reconstruction quality on the iPhone 16 Pro. The code and models will soon be available at https://github.com/hustvl/Turbo-VAED.
- Abstract(参考訳): モバイルデバイスに大規模な生成AIモデルをデプロイする需要が高まっている。
しかし、最近の人気ビデオ生成モデルでは、変分オートエンコーダ(VAE)は計算のボトルネックの1つとなっている。
大きなパラメータサイズとミスマッチしたカーネルの両方が、メモリ外エラーやモバイルデバイスでの非常に遅い推論を引き起こす。
そこで本稿では,広く使用されているビデオVAEをモバイルデバイスに効率よく転送する,低コストなソリューションを提案する。
1)既存のVAEアーキテクチャの冗長性を解析し,実証設計の知見を得る。
モデルに3次元的に分離可能な畳み込みを組み込むことにより,パラメータの数を著しく削減する。
2)メインストリームビデオVAEにおけるアップサンプリング技術は,モバイルハードウェアにはあまり適しておらず,主要なボトルネックとなっている。
そこで本研究では,分割した3Dピクセルシャッフル方式を提案する。
そこで我々は,モバイル指向のVAEデコーダであるTurbo-VAEDを開発した。
(3) 効率的なVAEデコーダ訓練法を提案する。
デプロイ時にデコーダのみを使用するため、完全なVAEを再トレーニングする代わりにTurbo-VAEDに蒸留し、パフォーマンス損失を最小限に抑えた高速なモバイル適応を可能にする。
我々の知る限り,本手法はモバイル端末上で初めてリアルタイム720pビデオVAEデコーディングを可能にする。
このアプローチは、ほとんどのビデオVAEに適用できる。
4つの代表的なモデルに統合され、トレーニングコストが最大95ドルで、GPUで最大84.5倍の720pの解像度でVAEを加速し、元のパラメータ数の17.5%まで使用でき、元のリビルド品質の96.9%を維持している。
モバイルに最適化されたVAEと比較して、Turbo-VAEDはFPSの2.9倍のスピードアップを実現し、iPhone 16 Proの再現性も向上した。
コードとモデルは間もなくhttps://github.com/hustvl/Turbo-VAED.comで公開される。
関連論文リスト
- MobileViCLIP: An Efficient Video-Text Model for Mobile Devices [24.114050057019078]
本稿では,ゼロショット分類と検索機能を備えたモバイル端末上での効率的なビデオテキストモデルを提案する。
モバイルデバイスでの推論速度に関しては、MobileViCLIP-SmallはInternVideo2-L14より55.4倍、InternVideo2-S14より6.7倍高速です。
ゼロショット検索性能では,MobileViCLIP-Small は InternVideo2-L14 と同様の性能を示し,MSR-VTT では InternVideo2-S14 よりも 6.9% 向上した。
論文 参考訳(メタデータ) (2025-08-10T12:01:58Z) - Taming Diffusion Transformer for Real-Time Mobile Video Generation [72.20660234882594]
Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。
本稿では,ビデオ生成の高速化とモバイルプラットフォーム上でのリアルタイムパフォーマンスの実現を目的とした,新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:10Z) - LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models [17.29580459404157]
本稿では,斬新で高効率なビデオVAEフレームワークLeanVAEを提案する。
我々のモデルは最大50倍のFLOPと44倍高速な推論速度を提供する。
ビデオ再生・生成におけるLeanVAEの優位性を検証した。
論文 参考訳(メタデータ) (2025-03-18T14:58:59Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
我々は、ビデオには画像よりもはるかに冗長な情報が含まれており、非常に少ない動きでエンコードできると主張している。
我々は、映像を非常に圧縮された潜在空間に投影する画像条件付きVAEを設計し、コンテンツ画像に基づいてデコードする。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - Towards Real-time Video Compressive Sensing on Mobile Devices [18.96331666620252]
Video Snapshot Compressive Imaging (SCI)は、低速2Dカメラを使用して、スナップショット圧縮計測として高速シーンをキャプチャする。
本稿では,モバイル機器上でリアルタイムに動作可能なビデオSCI再構成手法であるMobileSCIを提案する。
論文 参考訳(メタデータ) (2024-08-14T13:03:31Z) - FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文 参考訳(メタデータ) (2023-03-24T17:58:32Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。