論文の概要: ElasticDiT: Efficient Diffusion Transformers via Elastic Architecture and Sparse Attention for High-Resolution Image Generation on Mobile Devices
- arxiv url: http://arxiv.org/abs/2605.15684v1
- Date: Fri, 15 May 2026 07:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.162563
- Title: ElasticDiT: Efficient Diffusion Transformers via Elastic Architecture and Sparse Attention for High-Resolution Image Generation on Mobile Devices
- Title(参考訳): ElasticDiT: モバイルデバイス上での高分解能画像生成のための弾性構造とスパースアテンションによる効率的な拡散変換器
- Authors: Kunpeng Du, Haizhen Xie, Sen Lu, Lei Yu, Binglei Bao, Huaao Tang, Chuntao Liu, Hao Wu, Yang Zhao, Zhicai Huang, Heyuan Gao, Zhijun Tu, Jie Hu, Xinghao Chen,
- Abstract要約: Diffusion Transformer (DiT) アーキテクチャは、高忠実度画像生成のための最先端パラダイムである。
しかし、これらのモデルをリソースに制約されたモバイルデバイスにデプロイするには、計算とメモリのオーバーヘッドが禁じられる。
本稿では,空間圧縮比とDiTブロック深さを調整することで,このダイナミックトレードオフを実現するElasticDiTを紹介する。
- 参考スコア(独自算出の注目度): 19.789749822094617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Diffusion Transformer (DiT) architecture is the state-of-the-art paradigm for high-fidelity image generation, underpinning models like Stable Diffusion-3 and FLUX.1. However, deploying these models on resource-constrained mobile devices entails prohibitive computational and memory overhead. While efficiency-driven approaches like Linear-DiT and static pruning alleviate bottlenecks, they often incur quality degradation. Unlike cloud environments, mobile constraints require a single-model paradigm that dynamically balances fidelity and latency. We introduce ElasticDiT, which achieves this dynamic trade-off by adjusting spatial compression ratios and DiT block depths. By integrating Shift Sparse Block Attention (SSBA) and a Tiny DWT-Distilled VAE (T-DVAE), ElasticDiT reduces inference latency and memory footprint while maintaining image quality. Experiments confirm that ElasticDiT effectively covers a wide range of fidelity-latency trade-offs within a single set of parameters. By jointly adjusting compression and depth, a single ElasticDiT model can be reconfigured on-the-fly to outperform task-specific baselines. Specifically, our flex lite variant achieves an HPS of 32.87, surpassing the Flux model, while maintaining competitive quality at 84.16 percent average sparsity through SSBA. Furthermore, the plug-and-play T-DVAE provides SD3-level reconstruction with only 1/8x the computational cost of standard VAEs, and Flow-GRPO boosts semantic alignment (GenEval: 66.93 to 73.62). These results demonstrate that ElasticDiT offers a versatile, hardware-adaptive solution that eliminates the need for multiple specialized models, providing a promising path for future high-resolution image generation on mobile devices.
- Abstract(参考訳): Diffusion Transformer (DiT) アーキテクチャは、高忠実な画像生成のための最先端のパラダイムであり、Stable Diffusion-3やFLUX.1のような基盤となるモデルである。
しかし、これらのモデルをリソースに制約されたモバイルデバイスにデプロイするには、計算とメモリのオーバーヘッドが禁じられる。
Linear-DiTや静的プルーニングといった効率駆動のアプローチではボトルネックが緩和されるが、品質劣化が頻繁に発生する。
クラウド環境とは異なり、モバイルの制約は、フィデリティとレイテンシを動的にバランスするシングルモデルパラダイムを必要とする。
本稿では,空間圧縮比とDiTブロック深さを調整することで,このダイナミックトレードオフを実現するElasticDiTを紹介する。
Shift Sparse Block Attention (SSBA)とTiny DWT-Distilled VAE (T-DVAE)を統合することで、ElasticDiTは画像品質を維持しながら、推論レイテンシとメモリフットプリントを削減する。
実験では、ElasticDiTが単一のパラメータセット内で広範囲の忠実度-遅延トレードオフを効果的にカバーしていることを確認した。
圧縮と深さの調整を共同で行うことで、単一ElasticDiTモデルをオンザフライで再構成して、タスク固有のベースラインを上回ります。
具体的には、我々のフレキシブルライト変種は、Fluxモデルを上回る32.87のHPSを実現し、SSBAによる平均スパシティ84.6%の競争品質を維持した。
さらに、プラグアンドプレイのT-DVAEは標準のVAEの計算コストのわずか1/8でSD3レベルの再構成を提供し、Flow-GRPOはセマンティックアライメントを高める(GenEval: 66.93から73.62)。
これらの結果から,ElasticDiTは,複数の特殊なモデルの必要性を排除し,モバイルデバイス上での高解像度画像生成に期待できる,汎用的でハードウェア対応のソリューションを提供することが示された。
関連論文リスト
- SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices [72.0937240883345]
拡散変圧器(DiT)の最近の進歩は、画像生成の新たな標準を定めているが、デバイス上での展開には実用的ではない。
本稿では,厳密なリソース制約の下でトランスフォーマーレベルの生成品質を実現するモバイルおよびエッジデバイスに適した効率的なDiTフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-13T07:46:46Z) - Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers [10.251154683874033]
拡散変換器(DiT)は画像生成において例外的な性能を示したが、その大きなパラメータ数は計算コストが高い。
提案するPlugable Pruning with Contiguous Layer Distillation (PPCL)は,DiTアーキテクチャ用に設計されたフレキシブルな構造化プルーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-20T08:53:07Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [45.762142897697366]
ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、事前訓練されたモデルに対するモデル圧縮と高速化推論を可能にする。
DiT量子化の研究は依然として不十分であり、既存のPTQフレームワークは偏りのある量子化に悩まされがちである。
入力チャネル間での重みとアクティベーションの有意な分散を扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的にキャプチャする標本ワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。
論文 参考訳(メタデータ) (2024-06-25T07:57:27Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。