論文の概要: EXION: Exploiting Inter- and Intra-Iteration Output Sparsity for Diffusion Models
- arxiv url: http://arxiv.org/abs/2501.05680v1
- Date: Fri, 10 Jan 2025 03:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:58.032888
- Title: EXION: Exploiting Inter- and Intra-Iteration Output Sparsity for Diffusion Models
- Title(参考訳): EXION:拡散モデルにおけるインターイテレーションとイントライタレーションの出力間隔の爆発
- Authors: Jaehoon Heo, Adiwena Putra, Jieon Yoon, Sungwoong Yune, Hangyeol Lee, Ji-Hoon Kim, Joo-Young Kim,
- Abstract要約: SW-HW共同設計型拡散加速器であるEXIONについて紹介する。
これは拡散モデルにおける特異な点間および点内出力の空間性を利用する。
サーバGPUと比較して3.2-379.3xと45.1-3067.6x、エッジGPUに比べて42.6-1090.9xと196.9-4668.2xの性能改善を実現している。
- 参考スコア(独自算出の注目度): 12.931893842093718
- License:
- Abstract: Over the past few years, diffusion models have emerged as novel AI solutions, generating diverse multi-modal outputs from text prompts. Despite their capabilities, they face challenges in computing, such as excessive latency and energy consumption due to their iterative architecture. Although prior works specialized in transformer acceleration can be applied, the iterative nature of diffusion models remains unresolved. In this paper, we present EXION, the first SW-HW co-designed diffusion accelerator that solves the computation challenges by exploiting the unique inter- and intra-iteration output sparsity in diffusion models. To this end, we propose two SW-level optimizations. First, we introduce the FFN-Reuse algorithm that identifies and skips redundant computations in FFN layers across different iterations (inter-iteration sparsity). Second, we use a modified eager prediction method that employs two-step leading-one detection to accurately predict the attention score, skipping unnecessary computations within an iteration (intra-iteration sparsity). We also introduce a novel data compaction mechanism named ConMerge, which can enhance HW utilization by condensing and merging sparse matrices into compact forms. Finally, it has a dedicated HW architecture that supports the above sparsity-inducing algorithms, translating high output sparsity into improved energy efficiency and performance. To verify the feasibility of the EXION, we first demonstrate that it has no impact on accuracy in various types of multi-modal diffusion models. We then instantiate EXION in both server- and edge-level settings and compare its performance against GPUs with similar specifications. Our evaluation shows that EXION achieves dramatic improvements in performance and energy efficiency by 3.2-379.3x and 45.1-3067.6x compared to a server GPU and by 42.6-1090.9x and 196.9-4668.2x compared to an edge GPU.
- Abstract(参考訳): 過去数年間、拡散モデルは新しいAIソリューションとして登場し、テキストプロンプトから多様なマルチモーダル出力を生成する。
その能力にもかかわらず、反復アーキテクチャによる過度のレイテンシやエネルギー消費など、コンピューティングにおける課題に直面している。
変圧器加速を専門とする先行研究は適用できるが、拡散モデルの反復的性質は未解決のままである。
本稿では,最初のSW-HW共設計拡散加速器であるEXIONについて述べる。
この目的のために、SWレベルの最適化を2つ提案する。
まず,FFN-Reuseアルゴリズムを導入し,異なる繰り返し(Inter-iteration sparsity)にわたるFFN層内の冗長計算を同定し,スキップする。
第二に,2段階の先行1次検出を用いて注意点を正確に予測し,反復(点間間隔)内で不要な計算をスキップする改良された切望予測手法を用いる。
またコンマージと呼ばれる新しいデータ圧縮機構を導入し, スパース行列を縮合し, マージすることでHW利用を向上させる。
最後に、上述の空間性誘導アルゴリズムをサポートする専用のHWアーキテクチャを持ち、高出力空間をエネルギー効率と性能の改善に変換する。
EXIONの有効性を検証するために、まず様々な種類のマルチモーダル拡散モデルにおいて精度に影響を与えないことを実証する。
次に、サーバレベルの設定とエッジレベルの設定の両方でEXIONをインスタンス化し、そのパフォーマンスを同様の仕様でGPUと比較します。
評価の結果,サーバGPUに比べて3.2~379.3x,45.1~3067.6x,エッジGPUに比べて42.6~1090.9x,196.9~4668.2xの性能向上が見られた。
関連論文リスト
- Ditto: Accelerating Diffusion Model via Temporal Value Similarity [4.5280087047319535]
量子化と時間的類似性を利用して拡散モデルの効率を向上させる差分処理アルゴリズムを提案する。
また、1.5倍のスピードアップと17.74%の省エネを実現する専用ハードウェアアクセラレータであるDittoハードウェアも設計しています。
論文 参考訳(メタデータ) (2025-01-20T01:03:50Z) - MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。
エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文 参考訳(メタデータ) (2024-11-20T19:44:26Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Optimizing Diffusion Models for Joint Trajectory Prediction and Controllable Generation [49.49868273653921]
拡散モデルは、自律運転における共同軌道予測と制御可能な生成を約束する。
最適ガウス拡散(OGD)と推定クリーンマニフォールド(ECM)誘導を導入する。
提案手法は生成過程の合理化を図り,計算オーバーヘッドを低減した実用的な応用を実現する。
論文 参考訳(メタデータ) (2024-08-01T17:59:59Z) - Diffusion Models as Optimizers for Efficient Planning in Offline RL [47.0835433289033]
拡散モデルはオフラインの強化学習タスクにおいて強い競争力を示している。
本稿では,より高速な自己回帰モデルを提案する。
これにより、能力を犠牲にすることなく、より効率的な計画を達成することができます。
論文 参考訳(メタデータ) (2024-07-23T03:00:01Z) - JAX-Fluids 2.0: Towards HPC for Differentiable CFD of Compressible
Two-phase Flows [0.0]
JAX-Fluidsは、圧縮可能な単相および二相フロー用に設計されたPythonベースの完全微分可能CFDソルバである。
我々は、GPU(NVIDIA A100グラフィックスカード最大512)とTPU(最大1024 TPU v3コア)のHPCシステム上で効率よくスケールするJAXプリミティブ演算を利用した並列化戦略を導入する。
新しいコードバージョンは、強化された2相フローモデリング機能を提供する。
論文 参考訳(メタデータ) (2024-02-07T19:05:27Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Learning Efficient GANs for Image Translation via Differentiable Masks
and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。
DMADと呼ばれる新しいGAN圧縮手法を提案する。
実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文 参考訳(メタデータ) (2020-11-17T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。