論文の概要: Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model
- arxiv url: http://arxiv.org/abs/2506.15682v1
- Date: Wed, 18 Jun 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.784001
- Title: Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model
- Title(参考訳): 進化的キャッシングは、オフザシェルフ拡散モデルを加速する
- Authors: Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam,
- Abstract要約: 拡散に基づく画像生成モデルは高品質な合成コンテンツを生成するのに優れているが、遅くて計算コストのかかる推論に悩まされている。
本稿では,効率的なモデルごとのキャッシュスケジュールを学習する遺伝的アルゴリズムであるECAD(Evolutionary Caching to Accelerate Diffusion Model)を提案する。
ECADは、大きな推論スピードアップを提供し、品質-遅延トレードオフのきめ細かい制御を可能にし、異なる拡散モデルにシームレスに適応する。
- 参考スコア(独自算出の注目度): 38.350123625613804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based image generation models excel at producing high-quality synthetic content, but suffer from slow and computationally expensive inference. Prior work has attempted to mitigate this by caching and reusing features within diffusion transformers across inference steps. These methods, however, often rely on rigid heuristics that result in limited acceleration or poor generalization across architectures. We propose Evolutionary Caching to Accelerate Diffusion models (ECAD), a genetic algorithm that learns efficient, per-model, caching schedules forming a Pareto frontier, using only a small set of calibration prompts. ECAD requires no modifications to network parameters or reference images. It offers significant inference speedups, enables fine-grained control over the quality-latency trade-off, and adapts seamlessly to different diffusion models. Notably, ECAD's learned schedules can generalize effectively to resolutions and model variants not seen during calibration. We evaluate ECAD on PixArt-alpha, PixArt-Sigma, and FLUX-1.dev using multiple metrics (FID, CLIP, Image Reward) across diverse benchmarks (COCO, MJHQ-30k, PartiPrompts), demonstrating consistent improvements over previous approaches. On PixArt-alpha, ECAD identifies a schedule that outperforms the previous state-of-the-art method by 4.47 COCO FID while increasing inference speedup from 2.35x to 2.58x. Our results establish ECAD as a scalable and generalizable approach for accelerating diffusion inference. Our project website is available at https://aniaggarwal.github.io/ecad and our code is available at https://github.com/aniaggarwal/ecad.
- Abstract(参考訳): 拡散に基づく画像生成モデルは高品質な合成コンテンツを生成するのに優れているが、遅くて計算コストのかかる推論に悩まされている。
これまでの作業では、推論ステップを越えた拡散トランスフォーマー内の機能をキャッシュして再利用することで、これを緩和しようとしていた。
しかしこれらの手法は、しばしばアーキテクチャ全体での加速や一般化の不足をもたらす厳密なヒューリスティックに依存している。
モデルごとの効率的なキャッシュスケジュールを学習する遺伝的アルゴリズムであるECAD(Evolutionary Caching to Accelerate Diffusion Model)を提案する。
ECADはネットワークパラメータや参照画像の変更を必要としない。
これは大きな推論スピードアップを提供し、品質とレイテンシのトレードオフをきめ細かな制御を可能にし、異なる拡散モデルにシームレスに適応する。
特に、ECADの学習スケジュールは、校正中に見えない解像度やモデルのバリエーションに効果的に一般化することができる。
PixArt-alpha, PixArt-Sigma, FLUX-1.devのECADを, 様々なベンチマーク(COCO, MJHQ-30k, PartiPrompts)にまたがる複数のメトリクス(FID, CLIP, Image Reward)を用いて評価した。
PixArt-alphaでは、ECADは予測速度を2.35xから2.58xに増加させながら、従来の最先端のCOCO FIDよりも4.47COCOより優れたスケジュールを特定する。
この結果は,拡散推論を高速化するためのスケーラブルで一般化可能なアプローチとしてECADを確立した。
プロジェクトのWebサイトはhttps://aniaggarwal.github.io/ecadで、コードはhttps://github.com/aniaggarwal/ecadで利用可能です。
関連論文リスト
- One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。
学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。
ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-05-28T04:23:22Z) - AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。
本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。
キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文 参考訳(メタデータ) (2025-04-13T08:29:58Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z) - A learning-based approach to feature recognition of Engineering shapes [1.2691047660244335]
CADメッシュモデルにおける工学的形状の特徴を認識する機械学習手法を提案する。
Gaussマップの個別バージョンは、機能学習のシグネチャとして使用できる。
認識精度は3D畳み込みニューラルネットワーク(CNN)を用いて得られたものと非常によく似ている
論文 参考訳(メタデータ) (2021-12-15T08:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。