論文の概要: AdaCorrection: Adaptive Offset Cache Correction for Accurate Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.13357v1
- Date: Fri, 13 Feb 2026 08:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.942286
- Title: AdaCorrection: Adaptive Offset Cache Correction for Accurate Diffusion Transformers
- Title(参考訳): AdaCorrection: 正確な拡散変換器のための適応オフセットキャッシュ補正
- Authors: Dong Liu, Yanxuan Yu, Ben Lengerich, Ying Nian Wu,
- Abstract要約: Transformer Diffusion (TDis) は高忠実さと画像生成において最先端を実現するが、反復的デノイングにより高価な推論に苦しむ。
AdaCorrectionは適応的なオフセットキャッシュ補正フレームワークで、高ジェネレーションの忠実さを維持しつつ、拡散推論中にキャッシュ層間の効率的な再利用を可能にする。
提案手法は計算オーバーヘッドを最小限に抑えながら高い生成品質を実現し, ほぼオリジナルに近いFIDを維持しながら, 適度な加速を実現している。
- 参考スコア(独自算出の注目度): 37.38708392928324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) achieve state-of-the-art performance in high-fidelity image and video generation but suffer from expensive inference due to their iterative denoising structure. While prior methods accelerate sampling by caching intermediate features, they rely on static reuse schedules or coarse-grained heuristics, which often lead to temporal drift and cache misalignment that significantly degrade generation quality. We introduce \textbf{AdaCorrection}, an adaptive offset cache correction framework that maintains high generation fidelity while enabling efficient cache reuse across Transformer layers during diffusion inference. At each timestep, AdaCorrection estimates cache validity with lightweight spatio-temporal signals and adaptively blends cached and fresh activations. This correction is computed on-the-fly without additional supervision or retraining. Our approach achieves strong generation quality with minimal computational overhead, maintaining near-original FID while providing moderate acceleration. Experiments on image and video diffusion benchmarks show that AdaCorrection consistently improves generation performance.
- Abstract(参考訳): 拡散変換器(DiT)は高忠実度画像とビデオ生成において最先端の性能を達成するが,その反復的デノナイジング構造により高価な推論に悩まされる。
従来の手法は中間機能をキャッシュすることでサンプリングを加速するが、静的な再利用スケジュールや粗い粒度のヒューリスティックに依存しており、しばしば時間的ドリフトやキャッシュのミスアライメントを引き起こし、生成品質を著しく低下させる。
拡散推論中にトランスフォーマー層間の効率的なキャッシュ再利用を実現するとともに、高ジェネレーションの忠実さを維持する適応オフセットキャッシュ補正フレームワークである。
各時間ステップにおいて、AdaCorrectionは、軽量な時空間信号でキャッシュの有効性を推定し、キャッシュと新しいアクティベーションを適応的にブレンドする。
この補正は、追加の監督や再訓練なしにオンザフライで計算される。
提案手法は計算オーバーヘッドを最小限に抑えながら高い生成品質を実現し, ほぼオリジナルに近いFIDを維持しながら, 適度な加速を実現している。
AdaCorrectionは画像とビデオの拡散ベンチマークで連続的に生成性能を向上することを示した。
関連論文リスト
- BADiff: Bandwidth Adaptive Diffusion Model [55.10134744772338]
従来の拡散モデルは、下流の伝送制限によらず、一定数のデノナイジングステップを実行することで、高忠実度画像を生成する。
実際のクラウド・ツー・デバイス・シナリオでは、帯域幅の制限はしばしば重い圧縮を必要とし、微妙なテクスチャや無駄な計算が失われる。
使用可能な帯域幅から導かれる目標品質レベルに拡散モデルを条件付けする,共同エンドツーエンドのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-10-24T11:50:03Z) - ERTACache: Error Rectification and Timesteps Adjustment for Efficient Diffusion [30.897215456167753]
拡散モデルは、本質的に反復的推論プロセスのため、かなりの計算オーバーヘッドに悩まされる。
我々は、両方のエラータイプを共同で修正する原則的なキャッシュフレームワークであるERTACacheを提案する。
ERTACacheは最大2倍の推論スピードアップを実現します。
論文 参考訳(メタデータ) (2025-08-27T10:37:24Z) - TaoCache: Structure-Maintained Video Generation Acceleration [4.594224594572109]
ビデオ拡散モデルのためのトレーニング不要のプラグイン・アンド・プレイキャッシュ戦略であるTaoCacheを提案する。
モデルのノイズ出力を予測するために固定点視点を採用しており、特に遅延雑音発生の段階で有効である。
論文 参考訳(メタデータ) (2025-08-12T14:40:36Z) - DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - Sortblock: Similarity-Aware Feature Reuse for Diffusion Model [9.749736545966694]
Diffusion Transformer (DiTs) は顕著な生成能を示した。
DiTのシーケンシャルな denoising プロセスは、高い推論遅延をもたらす。
トレーニング不要な推論アクセラレーションフレームワークであるSoltblockを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:10:54Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - FEB-Cache: Frequency-Guided Exposure Bias Reduction for Enhancing Diffusion Transformer Caching [10.760030872557374]
Diffusion Transformer (DiT) は優れた生成機能を備えているが、計算複雑性が高いため大きな課題に直面している。
本稿では,キャッシュが露出バイアスを大幅に増幅し,生成品質が低下することを確認する。
我々は,非露出バイアス拡散プロセスと整合した共同キャッシュ戦略であるFEBキャッシュを導入する。
論文 参考訳(メタデータ) (2025-03-10T09:49:18Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。