論文の概要: Neodragon: Mobile Video Generation using Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2511.06055v1
- Date: Sat, 08 Nov 2025 15:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.730964
- Title: Neodragon: Mobile Video Generation using Diffusion Transformer
- Title(参考訳): Neodragon:拡散変換器を用いたモバイルビデオ生成
- Authors: Animesh Karnewar, Denis Korzhenkov, Ioannis Lelekas, Adil Karjauv, Noor Fathima, Hanwen Xiong, Vancheeswaran Vaidyanathan, Will Zeng, Rafael Esteves, Tushar Singhal, Fatih Porikli, Mohsen Ghafoorian, Amirhossein Habibian,
- Abstract要約: Neodragonは、Qualcomm Hexagon NPUの6.7 fps (7 FPS)で640x1024解像度で2s (49 frames @24 fps)ビデオを生成できるテキスト・ビデオシステムである。
低コスト、プライベート、オンデバイスでビデオ合成を可能にすることで、NeodragonはAIベースのビデオコンテンツ生成を民主化する。
- 参考スコア(独自算出の注目度): 37.108606422659825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Neodragon, a text-to-video system capable of generating 2s (49 frames @24 fps) videos at the 640x1024 resolution directly on a Qualcomm Hexagon NPU in a record 6.7s (7 FPS). Differing from existing transformer-based offline text-to-video generation models, Neodragon is the first to have been specifically optimised for mobile hardware to achieve efficient and high-fidelity video synthesis. We achieve this through four key technical contributions: (1) Replacing the original large 4.762B T5xxl Text-Encoder with a much smaller 0.2B DT5 (DistilT5) with minimal quality loss, enabled through a novel Text-Encoder Distillation procedure. (2) Proposing an Asymmetric Decoder Distillation approach allowing us to replace the native codec-latent-VAE decoder with a more efficient one, without disturbing the generative latent-space of the generation pipeline. (3) Pruning of MMDiT blocks within the denoiser backbone based on their relative importance, with recovery of original performance through a two-stage distillation process. (4) Reducing the NFE (Neural Functional Evaluation) requirement of the denoiser by performing step distillation using DMD adapted for pyramidal flow-matching, thereby substantially accelerating video generation. When paired with an optimised SSD1B first-frame image generator and QuickSRNet for 2x super-resolution, our end-to-end Neodragon system becomes a highly parameter (4.945B full model), memory (3.5GB peak RAM usage), and runtime (6.7s E2E latency) efficient mobile-friendly model, while achieving a VBench total score of 81.61. By enabling low-cost, private, and on-device text-to-video synthesis, Neodragon democratizes AI-based video content creation, empowering creators to generate high-quality videos without reliance on cloud services. Code and model will be made publicly available at our website: https://qualcomm-ai-research.github.io/neodragon
- Abstract(参考訳): Qualcomm Hexagon NPUの6.7秒(7FPS)で直接640x1024解像度で2秒(49フレーム@24fps)の動画を生成することができるテキスト対ビデオシステムであるNeodragonを紹介した。
既存のトランスフォーマーベースのオフラインテキスト・ビデオ生成モデルと異なり、Neodragonはモバイルハードウェア向けに最適化され、効率的で高忠実なビデオ合成を実現した最初の例である。
1) 従来の4.762B T5xxlテキストエンコーダを、より小さな0.2B DT5 (DistilT5) に置き換え、最小品質の損失を最小化し、新しいテキストエンコーダ蒸留法によって実現した。
2) 生成パイプラインの生成遅延空間を乱すことなく,非対称デコーダ蒸留法により,ネイティブコーデック-遅延VAEデコーダをより効率的なデコーダに置き換えることができる。
3) 2段蒸留法により, 比較的重要度の高いMMDiTブロックを作製し, 元の性能を回復した。
(4) ピラミッドフローマッチングに適合したDMDを用いて段階蒸留を行うことにより, 除圧器のNFE (Neural Functional Evaluation) 要求を低減し, 映像生成を著しく加速させる。
最適化されたSSD1BファーストフレームイメージジェネレータとQuickSRNetを2倍の解像度で組み合わせると、私たちのエンドツーエンドのNeodragonシステムは高パラメータ(4.945Bフルモデル)、メモリ(3.5GBピークRAM使用率)、実行時(6.7s E2Eレイテンシ)のモバイルフレンドリーなモデルとなり、VBenchトータルスコアは81.61となる。
低コストでプライベートでオンデバイスなテキスト・トゥ・ビデオ合成を可能にすることで、NeodragonはAIベースのビデオコンテンツ生成を民主化し、クラウドサービスに頼らずに高品質なビデオを作成することができる。
コードとモデルは、私たちのWebサイトで公開されます。
関連論文リスト
- SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer [116.17385614259574]
SANA-Videoは、720×1280の解像度と分長のビデオを効率よく生成できる小さな拡散モデルである。
2つのコア設計により、効率的な、効果的で、長いビデオ生成が保証されます。
コストの安いSANA-Videoは、現代の最先端の小さな拡散モデルと比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2025-09-29T12:28:09Z) - Turbo-VAED: Fast and Stable Transfer of Video-VAEs to Mobile Devices [36.637983575162075]
本稿では,広く使用されているビデオVAEをモバイルデバイスに効率的に転送する,低コストなソリューションを提案する。
本手法により,モバイル端末上でのリアルタイム720pビデオVAEデコーディングが可能となった。
Turbo-VAEDはFPSの2.9倍のスピードアップを実現し、iPhone 16 Proの再現性も向上した。
論文 参考訳(メタデータ) (2025-08-12T17:59:46Z) - Taming Diffusion Transformer for Efficient Mobile Video Generation in Seconds [91.56929670753226]
Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。
本稿では,ビデオ生成の大幅な高速化と,モバイルプラットフォームへの実用的な展開を実現するための新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:10Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。