論文の概要: MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices
- arxiv url: http://arxiv.org/abs/2511.21475v1
- Date: Wed, 26 Nov 2025 15:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.155197
- Title: MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices
- Title(参考訳): MobileI2V: モバイルデバイス上での高速で高解像度のイメージ・トゥ・ビデオ
- Authors: Shuai Zhang, Bao Tang, Siyuan Yu, Yueting Zhu, Jingfeng Yao, Ya Zou, Shanglin Yuan, Li Yu, Wenyu Liu, Xinggang Wang,
- Abstract要約: モバイル端末上でのリアルタイム画像・ビデオ生成のための270M軽量拡散モデルであるMobileI2Vを提案する。
I2Vサンプリング工程を20回以上から2回まで圧縮する時間段階蒸留方式を設計した。
MobileI2Vは、モバイル端末で720pの高速動画生成を可能にする。
- 参考スコア(独自算出の注目度): 42.00270347221752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, video generation has witnessed rapid advancements, drawing increasing attention to image-to-video (I2V) synthesis on mobile devices. However, the substantial computational complexity and slow generation speed of diffusion models pose significant challenges for real-time, high-resolution video generation on resource-constrained mobile devices. In this work, we propose MobileI2V, a 270M lightweight diffusion model for real-time image-to-video generation on mobile devices. The core lies in: (1) We analyzed the performance of linear attention modules and softmax attention modules on mobile devices, and proposed a linear hybrid architecture denoiser that balances generation efficiency and quality. (2) We design a time-step distillation strategy that compresses the I2V sampling steps from more than 20 to only two without significant quality loss, resulting in a 10-fold increase in generation speed. (3) We apply mobile-specific attention optimizations that yield a 2-fold speed-up for attention operations during on-device inference. MobileI2V enables, for the first time, fast 720p image-to-video generation on mobile devices, with quality comparable to existing models. Under one-step conditions, the generation speed of each frame of 720p video is less than 100 ms. Our code is available at: https://github.com/hustvl/MobileI2V.
- Abstract(参考訳): 近年、ビデオ生成は急速に進歩し、モバイルデバイス上での画像間合成(I2V)に注目が集まっている。
しかし、拡散モデルの計算複雑性と遅い生成速度は、リソース制約されたモバイルデバイス上でリアルタイムで高解像度のビデオ生成に重大な課題をもたらす。
本研究では,モバイルデバイス上でのリアルタイム画像・ビデオ生成のための2億7000万光拡散モデルであるMobileI2Vを提案する。
1) モバイルデバイス上での線形注意モジュールとソフトマックス注意モジュールの性能を解析し, 生成効率と品質のバランスをとる線形ハイブリッドアーキテクチャデノイザを提案する。
2) I2Vサンプリング工程を20個以上から2個程度に圧縮し, 製造速度を10倍に向上させるタイムステップ蒸留法を設計した。
(3)デバイス上でのアテンション操作に2倍のスピードアップをもたらすモバイル特化アテンション最適化を適用した。
MobileI2Vは、モバイル端末で720pの高速動画生成を可能にする。
1ステップの条件下では、720pビデオの各フレームの生成速度は100ミリ秒以下です。
関連論文リスト
- MobileViCLIP: An Efficient Video-Text Model for Mobile Devices [24.114050057019078]
本稿では,ゼロショット分類と検索機能を備えたモバイル端末上での効率的なビデオテキストモデルを提案する。
モバイルデバイスでの推論速度に関しては、MobileViCLIP-SmallはInternVideo2-L14より55.4倍、InternVideo2-S14より6.7倍高速です。
ゼロショット検索性能では,MobileViCLIP-Small は InternVideo2-L14 と同様の性能を示し,MSR-VTT では InternVideo2-S14 よりも 6.9% 向上した。
論文 参考訳(メタデータ) (2025-08-10T12:01:58Z) - Taming Diffusion Transformer for Efficient Mobile Video Generation in Seconds [91.56929670753226]
Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。
本稿では,ビデオ生成の大幅な高速化と,モバイルプラットフォームへの実用的な展開を実現するための新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:10Z) - CompactFlowNet: Efficient Real-time Optical Flow Estimation on Mobile Devices [19.80162591240214]
我々は,光フロー予測のための最初のリアルタイム移動ニューラルネットワークであるCompactFlowNetを提案する。
光フローは、ビデオ復元、モーション推定、ビデオ安定化、オブジェクト追跡、アクション認識、ビデオ生成など、様々なビデオ関連タスクの基本的なビルディングブロックとして機能する。
論文 参考訳(メタデータ) (2024-12-17T19:06:12Z) - SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device [61.42406720183769]
本稿では,大規模ビデオ拡散モデルのパワーをエッジユーザーにもたらすための包括的加速フレームワークを提案する。
我々のモデルは0.6Bのパラメータしか持たないため、iPhone 16 PMで5秒以内に5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2024-12-13T18:59:56Z) - SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。
本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文 参考訳(メタデータ) (2024-12-12T18:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。