論文の概要: SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices
- arxiv url: http://arxiv.org/abs/2601.08303v1
- Date: Tue, 13 Jan 2026 07:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.106641
- Title: SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices
- Title(参考訳): SnapGen++:エッジデバイス上での高忠実な画像生成のための拡散変換器の解放
- Authors: Dongting Hu, Aarush Gupta, Magzhan Gabidolla, Arpit Sahni, Huseyin Coskun, Yanyu Li, Yerlan Idelbayev, Ahsan Mahmood, Aleksei Lebedev, Dishani Lahiri, Anujraaj Goyal, Ju Hu, Mingming Gong, Sergey Tulyakov, Anil Kag,
- Abstract要約: 拡散変圧器(DiT)の最近の進歩は、画像生成の新たな標準を定めているが、デバイス上での展開には実用的ではない。
本稿では,厳密なリソース制約の下でトランスフォーマーレベルの生成品質を実現するモバイルおよびエッジデバイスに適した効率的なDiTフレームワークを提案する。
- 参考スコア(独自算出の注目度): 72.0937240883345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion transformers (DiTs) have set new standards in image generation, yet remain impractical for on-device deployment due to their high computational and memory costs. In this work, we present an efficient DiT framework tailored for mobile and edge devices that achieves transformer-level generation quality under strict resource constraints. Our design combines three key components. First, we propose a compact DiT architecture with an adaptive global-local sparse attention mechanism that balances global context modeling and local detail preservation. Second, we propose an elastic training framework that jointly optimizes sub-DiTs of varying capacities within a unified supernetwork, allowing a single model to dynamically adjust for efficient inference across different hardware. Finally, we develop Knowledge-Guided Distribution Matching Distillation, a step-distillation pipeline that integrates the DMD objective with knowledge transfer from few-step teacher models, producing high-fidelity and low-latency generation (e.g., 4-step) suitable for real-time on-device use. Together, these contributions enable scalable, efficient, and high-quality diffusion models for deployment on diverse hardware.
- Abstract(参考訳): 拡散変圧器(DiT)の最近の進歩は、画像生成における新しい標準を定めているが、高い計算コストとメモリコストのため、デバイス上での展開には実用的ではない。
本研究では,厳密なリソース制約の下でトランスフォーマーレベルの生成品質を実現するモバイルおよびエッジデバイスに適した効率的なDiTフレームワークを提案する。
私たちのデザインは3つの重要なコンポーネントを組み合わせています。
まず,グローバルコンテキストモデリングと局所ディテール保存のバランスをとる適応的グローバルローカルスパースアテンション機構を備えたコンパクトなDiTアーキテクチャを提案する。
第2に、統一されたスーパーネットワーク内での様々な容量のサブDiTを協調的に最適化し、単一のモデルで異なるハードウェア間の効率的な推論を動的に調整できる弾性トレーニングフレームワークを提案する。
最後に,DMD目標と数段階の教師モデルからの知識伝達を統合し,リアルタイムのオンデバイス利用に適した高忠実かつ低レイテンシ生成(例:4ステップ)を実現するステップ蒸留パイプラインであるナレッジガイド分布マッチング蒸留を開発した。
これらの貢献により、多様なハードウェアに展開するためのスケーラブルで効率的で高品質な拡散モデルが可能になる。
関連論文リスト
- Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition [10.302458835329539]
軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。
実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-14T10:36:19Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。