論文の概要: SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2603.07057v2
- Date: Tue, 10 Mar 2026 06:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:13.020658
- Title: SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer
- Title(参考訳): SODA:拡散変圧器の感度指向動的加速
- Authors: Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su,
- Abstract要約: 拡散変換器は視覚生成において支配的なパラダイムとなっているが、その低推論効率は依然として重要なボトルネックである。
我々は,微粒化感度に基づいてキャッシングとプルーニングを適応的に行う,感性指向動的加速度法SODAを提案する。
DiT-XL/2、PixArt-$$、OpenSoraの実験では、SODAが制御可能な加速比の下で最先端の生成フィリティを達成することを示した。
- 参考スコア(独自算出の注目度): 26.687056294842083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers have become a dominant paradigm in visual generation, yet their low inference efficiency remains a key bottleneck hindering further advancement. Among common training-free techniques, caching offers high acceleration efficiency but often compromises fidelity, whereas pruning shows the opposite trade-off. Integrating caching with pruning achieves a balance between acceleration and generation quality. However, existing methods typically employ fixed and heuristic schemes to configure caching and pruning strategies. While they roughly follow the overall sensitivity trend of generation models to acceleration, they fail to capture fine-grained and complex variations, inevitably skipping highly sensitive computations and leading to quality degradation. Furthermore, such manually designed strategies exhibit poor generalization. To address these issues, we propose SODA, a Sensitivity-Oriented Dynamic Acceleration method that adaptively performs caching and pruning based on fine-grained sensitivity. SODA builds an offline sensitivity error modeling framework across timesteps, layers, and modules to capture the sensitivity to different acceleration operations. The cache intervals are optimized via dynamic programming with sensitivity error as the cost function, minimizing the impact of caching on model sensitivity. During pruning and cache reuse, SODA adaptively determines the pruning timing and rate to preserve computations of highly sensitive tokens, significantly enhancing generation fidelity. Extensive experiments on DiT-XL/2, PixArt-$α$, and OpenSora demonstrate that SODA achieves state-of-the-art generation fidelity under controllable acceleration ratios. Our code is released publicly at: https://github.com/leaves162/SODA.
- Abstract(参考訳): 拡散変換器は視覚生成において支配的なパラダイムとなっているが、推論効率の低さは、さらなる進歩を妨げる重要なボトルネックである。
トレーニングなしの一般的なテクニックの中で、キャッシングは高い加速効率を提供するが、しばしば忠実さを損なうが、プルーニングは反対のトレードオフを示している。
キャッシュとプルーニングを統合することで、アクセラレーションと生成品質のバランスがとれる。
しかし、既存のメソッドは通常、キャッシングとプルーニング戦略を構成するために固定的でヒューリスティックなスキームを使用する。
それらは、生成モデルから加速への全体的な感度傾向に従っているが、細粒度で複雑なバリエーションを捉えることができず、必然的に高感度の計算をスキップし、品質劣化をもたらす。
さらに、このような手動設計の戦略は、一般化が貧弱であることを示す。
これらの問題に対処するため,細粒度感度に基づいてキャッシングとプルーニングを適応的に行う感性指向動的加速度法であるSODAを提案する。
SODAは、タイムステップ、レイヤ、モジュールにまたがるオフラインの感度エラーモデリングフレームワークを構築し、異なるアクセラレーション操作に対する感度をキャプチャする。
キャッシュ間隔は、モデル感度に対するキャッシュの影響を最小限に抑えるため、コスト関数として感度エラーを伴う動的プログラミングによって最適化される。
プルーニングとキャッシュ再利用の間、SODAはプルーニングタイミングとレートを適応的に決定し、高度に敏感なトークンの計算を保存する。
DiT-XL/2, PixArt-$α$, およびOpenSoraの広範囲な実験により、SODAは制御可能な加速比の下で最先端の生成忠実性を達成することを示した。
私たちのコードは、https://github.com/leaves162/SODAで公開されています。
関連論文リスト
- SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching [75.02865981328509]
キャッシュは、以前計算されたモデル出力をタイムステップで再利用することで計算を減らす。
本稿では,動的キャッシュポリシーであるSensitivity-Aware Caching(SenCache)を提案する。
SenCacheは、同様の計算予算の下で、既存のキャッシュメソッドよりも視覚的品質が向上する。
論文 参考訳(メタデータ) (2026-02-27T17:36:09Z) - AdaCorrection: Adaptive Offset Cache Correction for Accurate Diffusion Transformers [37.38708392928324]
Transformer Diffusion (TDis) は高忠実さと画像生成において最先端を実現するが、反復的デノイングにより高価な推論に苦しむ。
AdaCorrectionは適応的なオフセットキャッシュ補正フレームワークで、高ジェネレーションの忠実さを維持しつつ、拡散推論中にキャッシュ層間の効率的な再利用を可能にする。
提案手法は計算オーバーヘッドを最小限に抑えながら高い生成品質を実現し, ほぼオリジナルに近いFIDを維持しながら, 適度な加速を実現している。
論文 参考訳(メタデータ) (2026-02-13T08:11:54Z) - Adaptive Visual Autoregressive Acceleration via Dual-Linkage Entropy Analysis [50.48301331112126]
我々は,Visual AutoRegressive モデリングのためのトレーニング不要なトークン削減促進フレームワーク NOVA を提案する。
NOVAは、スケールエントロピー成長の屈折点をオンライン同定することにより、推論中のアクティベーションアクティベーションスケールを適応的に決定する。
実験と解析により、NOVAはシンプルで効果的なトレーニングフリー加速フレームワークとして評価される。
論文 参考訳(メタデータ) (2026-02-01T17:29:42Z) - Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization [26.687056294842083]
キャッシュベースの手法は、かなりの計算誤差に悩まされながら、トレーニング不要な加速を実現する。
既存の手法では、プルーニングや予測などのエラー訂正戦略を取り入れて緩和するのが一般的である。
本稿では,CEM と呼ばれる累積誤差最小化による既存の誤り訂正手法のための新しい忠実度最適化プラグインを提案する。
論文 参考訳(メタデータ) (2025-12-29T07:36:36Z) - Plug-and-Play Homeostatic Spark: Zero-Cost Acceleration for SNN Training Across Paradigms [40.57310813106791]
スパイキングニューラルネットワークは、イベント駆動計算、スパースアクティベーション、ハードウェア効率を提供するが、トレーニングはしばしばゆっくりと収束し、安定性に欠ける。
AHSAR(Adaptive Homeostatic Spiking Activity Regulation)は,超簡易なプラグインおよびトレーニングパラダイムである。
AHSARは最適化を安定化し、モデルアーキテクチャや損失、勾配を変更することなく収束を加速する。
論文 参考訳(メタデータ) (2025-12-04T17:26:46Z) - NIRVANA: Structured pruning reimagined for large language models compression [50.651730342011014]
直近のゼロショット保存精度と頑健な微調整のバランスをとるために, NIRVANAを導入した。
構造化プルーニングによって引き起こされる固有の課題にさらに対処するため、NIRVANAは層やモジュール間の適応的な空間割当機構を取り入れている。
Llama3, Qwen, T5モデルで行った実験では、NIRVANAは等価な空間制約の下で既存の構造化プルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-17T17:59:00Z) - Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition [4.0594792247165]
拡散変換器(DiT)モデルは画像生成において顕著な成功を収めた。
Increment-calibrated cache, a training-free method for DiT accelerate。
本手法は45%以上を除去し,0.06 FID増加のコストでISを12倍に改善する。
論文 参考訳(メタデータ) (2025-05-09T06:56:17Z) - CacheQuant: Comprehensively Accelerated Diffusion Models [3.78219736760145]
CacheQuantは、モデルキャッシングと量子化の技術を共同で最適化することで、拡散モデルを包括的に高速化する、新しいトレーニング不要のパラダイムである。
実験の結果、CacheQuantはMS-COCO上の安定拡散のために5.18のスピードアップと4の圧縮を実現しており、CLIPスコアは0.02しか失われていない。
論文 参考訳(メタデータ) (2025-03-03T09:04:51Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Correlating sparse sensing for large-scale traffic speed estimation: A
Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。
次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-21T07:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。