Fugu-MT 論文翻訳(概要): CorGi: Contribution-Guided Block-Wise Interval Caching for Training-Free Acceleration of Diffusion Transformers

論文の概要: CorGi: Contribution-Guided Block-Wise Interval Caching for Training-Free Acceleration of Diffusion Transformers

arxiv url: http://arxiv.org/abs/2512.24195v1
Date: Tue, 30 Dec 2025 12:55:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-01 23:27:28.382514
Title: CorGi: Contribution-Guided Block-Wise Interval Caching for Training-Free Acceleration of Diffusion Transformers
Title（参考訳）: CorGi: 拡散変圧器のトレーニングフリー加速のための寄与誘導ブロックワイズインターバルキャッシング
Authors: Yonglak Son, Suhyeok Kim, Seungryong Kim, Young Geun Kim,
Abstract要約: 拡散変圧器(DiT)は視覚発生において顕著な性能を発揮するが,その反復的復調処理は高い推論コストをもたらす。最近の研究は、DiTモデルの反復的復調過程がステップ間でかなりの冗長な計算を伴っていることを証明している。 DiTの冗長計算を効果的に削減するために,トレーニング不要なDiT推論高速化フレームワークであるCorGiを提案する。
参考スコア（独自算出の注目度）: 36.24757726680472
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion transformer (DiT) achieves remarkable performance in visual generation, but its iterative denoising process combined with larger capacity leads to a high inference cost. Recent works have demonstrated that the iterative denoising process of DiT models involves substantial redundant computation across steps. To effectively reduce the redundant computation in DiT, we propose CorGi (Contribution-Guided Block-Wise Interval Caching), training-free DiT inference acceleration framework that selectively reuses the outputs of transformer blocks in DiT across denoising steps. CorGi caches low-contribution blocks and reuses them in later steps within each interval to reduce redundant computation while preserving generation quality. For text-to-image tasks, we further propose CorGi+, which leverages per-block cross-attention maps to identify salient tokens and applies partial attention updates to protect important object details. Evaluation on the state-of-the-art DiT models demonstrates that CorGi and CorGi+ achieve up to 2.0x speedup on average, while preserving high generation quality.
Abstract（参考訳）: 拡散変圧器(DiT)は視覚発生において顕著な性能を発揮するが,その反復的復調過程とキャパシティが組み合わさって高い推論コストをもたらす。最近の研究は、DiTモデルの反復的復調過程がステップ間でかなりの冗長な計算を伴っていることを証明している。そこで我々は,DiTにおける冗長計算を効果的に削減するために,DiTにおけるトランスフォーマーブロックの出力を段階的に選択的に再利用するトレーニングフリーなDiT推論高速化フレームワークであるCorGi(Contribution-Guided Block-Wise Interval Caching)を提案する。 CorGiは低コントリビューションブロックをキャッシュし、各インターバル内の後段で再利用することで、生成品質を維持しながら冗長な計算を減らす。テキスト・ツー・イメージタスクに対しては,ブロックごとのクロスアテンションマップを活用して有意なトークンを識別し,重要なオブジェクトの詳細を保護するために部分的な注意更新を適用するCorGi+を提案する。最先端のDiTモデルの評価は、CorGiとCorGi+が平均で2.0倍のスピードアップを達成し、高世代品質を保っていることを示している。

関連論文リスト

TNT: Improving Chunkwise Training for Test-Time Memorization [62.78875147721906]
タイタンスやTTTのような深いテストタイム記憶モジュールを持つリカレントニューラルネットワーク(RNN)は、トランスフォーマーとは異なる有望で線形にスケールするパラダイムである。 TNTは,2段階のプロセスを通じて,推論性能からトレーニング効率を分離する,新たなトレーニングパラダイムである。 TNTはトレーニング速度を最も正確なベースライン構成の17倍に高速化する。
論文参考訳（メタデータ） (2025-11-10T17:45:09Z)
BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching [6.354675628412448]
Block-Wise Caching (BWCache)は、DiTベースのビデオ生成を高速化するトレーニング不要の手法である。いくつかのビデオ拡散モデルの実験では、BWCacheは2.24$times$ speedupを同等の視覚的品質で達成している。
論文参考訳（メタデータ） (2025-09-17T07:58:36Z)
Foresight: Adaptive Layer Reuse for Accelerated and High-Quality Text-to-Video Generation [3.321460333625124]
Diffusion Transformer (DiTs) は、テキスト・トゥ・イメージ、テキスト・トゥ・ビデオ生成、編集といった最先端の成果を達成する。静的キャッシュは、固定ステップにまたがって機能を再利用することでこれを緩和するが、ジェネレーションダイナミクスに適応できない。ベースライン性能を保ちながらデノナイジングステップ間の計算冗長性を低減させる適応層再利用手法であるForesightを提案する。
論文参考訳（メタデータ） (2025-05-31T00:52:17Z)
Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration [24.85624444212476]
本研究は,拡散過程を伴わない領域における不規則な特徴冗長性への参加という,新しい概念を提案する。我々は, 特徴冗長度の位置と度合いを, 構造的詳細記述に基づく分析を行った。 SDTMは,特徴冗長性を動的に圧縮する構造的詳細トークンマージ手法である。
論文参考訳（メタデータ） (2025-05-16T21:27:38Z)
DDT: Decoupled Diffusion Transformer [51.84206763079382]
拡散変換器はノイズの多い入力を符号化し、意味成分を抽出し、同じモジュールで高い周波数をデコードする。 textbfcolorddtDecoupled textbfcolorddtTransformer(textbfcolorddtDDT) textbfcolorddtTransformer(textbfcolorddtDDT) textbfcolorddtTransformer(textbfcolorddtDDT)
論文参考訳（メタデータ） (2025-04-08T07:17:45Z)
Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文参考訳（メタデータ） (2023-12-06T00:51:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。