論文の概要: S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation
- arxiv url: http://arxiv.org/abs/2601.12719v1
- Date: Mon, 19 Jan 2026 04:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.757863
- Title: S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation
- Title(参考訳): S2DiT:モバイルストリーミングビデオ生成用サンドイッチ拡散変換器
- Authors: Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li,
- Abstract要約: S2DiTは、モバイルハードウェア上で効率よく、高忠実で、ストリーミングビデオを生成するために設計されたストリーミングサンドウィッチ拡散変換器である。
大規模教師モデルの容量をコンパクトな数段サンドイッチモデルに転送する2-in-1蒸留フレームワークを提案する。
S2DiTは、最先端のサーバビデオモデルと同等の品質を実現し、iPhoneで10FPS以上でストリーミングする。
- 参考スコア(独自算出の注目度): 77.08147098854762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) have recently improved video generation quality. However, their heavy computational cost makes real-time or on-device generation infeasible. In this work, we introduce S2DiT, a Streaming Sandwich Diffusion Transformer designed for efficient, high-fidelity, and streaming video generation on mobile hardware. S2DiT generates more tokens but maintains efficiency with novel efficient attentions: a mixture of LinConv Hybrid Attention (LCHA) and Stride Self-Attention (SSA). Based on this, we uncover the sandwich design via a budget-aware dynamic programming search, achieving superior quality and efficiency. We further propose a 2-in-1 distillation framework that transfers the capacity of large teacher models (e.g., Wan 2.2-14B) to the compact few-step sandwich model. Together, S2DiT achieves quality on par with state-of-the-art server video models, while streaming at over 10 FPS on an iPhone.
- Abstract(参考訳): 拡散変換器(DiT)は最近、ビデオ生成の品質を改善している。
しかし、その計算コストの重いため、リアルタイムまたはデバイス上の生成は不可能である。
本研究では,モバイルハードウェア上での効率,高忠実性,ストリーミングビデオ生成のために設計されたストリームサンドウィッチ拡散変換器であるS2DiTを紹介する。
S2DiTはより多くのトークンを生成するが、LinConv Hybrid Attention (LCHA) と Stride Self-Attention (SSA) の混合という、新しい効率的な注意を払って効率を維持する。
これに基づいて、予算を考慮した動的プログラミング検索によりサンドイッチの設計を明らかにし、優れた品質と効率を実現する。
さらに,大規模な教師モデル(Wan 2.2-14B)の容量をコンパクトな数段サンドイッチモデルに転送する2-in-1蒸留フレームワークを提案する。
S2DiTは、iPhoneで10FPS以上ストリーミングしながら、最先端のサーバービデオモデルに匹敵する品質を実現している。
関連論文リスト
- ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers [10.830662834634879]
ReHyAtは、ソフトマックスアテンションの忠実度と線形アテンションの効率を結合するハイブリッドアテンション機構である。
実験により,ReHyAtは2次から線形への注目コストを低減しつつ,最先端の映像品質を実現することが示された。
論文 参考訳(メタデータ) (2026-01-07T19:26:30Z) - Taming Diffusion Transformer for Efficient Mobile Video Generation in Seconds [91.56929670753226]
Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。
本稿では,ビデオ生成の大幅な高速化と,モバイルプラットフォームへの実用的な展開を実現するための新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:10Z) - Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。
新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。
メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:53:11Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。