Fugu-MT 論文翻訳(概要): OUSAC: Optimized Guidance Scheduling with Adaptive Caching for DiT Acceleration

論文の概要: OUSAC: Optimized Guidance Scheduling with Adaptive Caching for DiT Acceleration

arxiv url: http://arxiv.org/abs/2512.14096v1
Date: Tue, 16 Dec 2025 05:11:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-17 16:49:26.599503
Title: OUSAC: Optimized Guidance Scheduling with Adaptive Caching for DiT Acceleration
Title（参考訳）: OUSAC: DiTアクセラレーションのための適応キャッシングによる最適化ガイダンススケジューリング
Authors: Ruitong Sun, Tianze Yang, Wei Niu, Jin Sun,
Abstract要約: OUSACは分散トランスフォーマー(DiT)をシステム最適化により高速化するフレームワークである。我々の重要な洞察は、可変誘導スケールがスパース計算を可能にすることである。 Stage-1では、どのタイムステップをスキップするか、どのガイダンススケールを使うかを共同で最適化するために進化的アルゴリズムを採用している。ステージ2では、変圧器ブロックごとの校正作業を調整するアダプティブなランクアロケーションが導入されている。
参考スコア（独自算出の注目度）: 4.771742494878726
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have emerged as the dominant paradigm for high-quality image generation, yet their computational expense remains substantial due to iterative denoising. Classifier-Free Guidance (CFG) significantly enhances generation quality and controllability but doubles the computation by requiring both conditional and unconditional forward passes at every timestep. We present OUSAC (Optimized gUidance Scheduling with Adaptive Caching), a framework that accelerates diffusion transformers (DiT) through systematic optimization. Our key insight is that variable guidance scales enable sparse computation: adjusting scales at certain timesteps can compensate for skipping CFG at others, enabling both fewer total sampling steps and fewer CFG steps while maintaining quality. However, variable guidance patterns introduce denoising deviations that undermine standard caching methods, which assume constant CFG scales across steps. Moreover, different transformer blocks are affected at different levels under dynamic conditions. This paper develops a two-stage approach leveraging these insights. Stage-1 employs evolutionary algorithms to jointly optimize which timesteps to skip and what guidance scale to use, eliminating up to 82% of unconditional passes. Stage-2 introduces adaptive rank allocation that tailors calibration efforts per transformer block, maintaining caching effectiveness under variable guidance. Experiments demonstrate that OUSAC significantly outperforms state-of-the-art acceleration methods, achieving 53% computational savings with 15% quality improvement on DiT-XL/2 (ImageNet 512x512), 60% savings with 16.1% improvement on PixArt-alpha (MSCOCO), and 5x speedup on FLUX while improving CLIP Score over the 50-step baseline.
Abstract（参考訳）: 拡散モデルは高品質な画像生成において支配的なパラダイムとして現れてきたが、その計算コストは反復的なデノベーションのため、依然として相当である。 Classifier-Free Guidance (CFG) は生成品質と制御性を大幅に向上させるが、条件付きと非条件付きの両方のフォワードパスを毎回要求することで計算を倍増させる。本稿では,分散トランスフォーマー (DiT) を最適化により高速化するフレームワーク OUSAC (Optimized gUidance Scheduling with Adaptive Caching) を提案する。我々の重要な洞察は、可変誘導スケールはスパース計算を可能にし、特定のタイミングでスケールを調整することは、CFGを他のタイミングでスキップすることで補うことができ、品質を維持しながら、総サンプリングステップを減らし、CFGのステップを減らします。しかし、可変誘導パターンは、標準キャッシングメソッドを損なう偏差を減らし、ステップ毎に一定のCFGスケールを仮定する。さらに、異なる変圧器ブロックが動的条件下で異なるレベルで影響を受ける。本稿では,これらの知見を活かした2段階のアプローチを提案する。 Stage-1は、どのタイムステップをスキップするか、どのガイダンススケールを使うかを共同で最適化するために進化的アルゴリズムを採用し、無条件パスの最大82%を排除している。 Stage-2では、変圧器ブロックごとのキャリブレーションを調整し、可変誘導下でのキャッシュ効率を維持するアダプティブなランクアロケーションが導入されている。実験により、OUSACは最先端の加速法を著しく上回り、DiT-XL/2(ImageNet 512x512)で15%改善した計算の53%、PixArt-alpha(MSCOCO)で16.1%改善した60%、FLUXで5倍高速化した。

関連論文リスト

QTALE: Quantization-Robust Token-Adaptive Layer Execution for LLMs [0.0]
大規模言語モデル(LLM)は、かなりの計算資源とメモリ資源を必要とする。トークン適応型実行と量子化をシームレスに統合する新しいフレームワークであるQTALEを提案する。
論文参考訳（メタデータ） (2026-02-11T02:19:11Z)
ADEPT: Adaptive Dynamic Early-Exit Process for Transformers [12.23755727319088]
早期の出口戦略は、推論を早期に停止することで計算要求を減らすのに有効であることが証明されている。 ADEPTは、この問題を克服し、プリフィルとジェネレーションの両方の段階で動的早期終了を可能にするために設計された新しいアプローチである。 ADEPTは、言語生成タスクの最大25%の効率向上を実現し、下流分類タスクの4倍の高速化を実現し、最大45%の性能向上を実現している。
論文参考訳（メタデータ） (2026-01-07T08:34:41Z)
Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。 TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文参考訳（メタデータ） (2025-12-10T01:54:57Z)
CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。 CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。 LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文参考訳（メタデータ） (2025-10-21T16:33:57Z)
IIET: Efficient Numerical Transformer via Implicit Iterative Euler Method [59.02943805284446]
Iterative Implicit Euler Transformer (IIET) IIADにより、ユーザはパフォーマンス効率のトレードオフを効果的にバランスできる。 E-IIETの変種は、バニラトランスフォーマーよりも平均的なパフォーマンスが1.6%以上向上した。
論文参考訳（メタデータ） (2025-09-26T15:14:03Z)
Accelerating Diffusion Transformer via Increment-Calibrated Caching with Channel-Aware Singular Value Decomposition [4.0594792247165]
拡散変換器(DiT)モデルは画像生成において顕著な成功を収めた。 Increment-calibrated cache, a training-free method for DiT accelerate。本手法は45%以上を除去し,0.06 FID増加のコストでISを12倍に改善する。
論文参考訳（メタデータ） (2025-05-09T06:56:17Z)
Accelerating Diffusion Transformer via Gradient-Optimized Cache [18.32157920050325]
時間的特徴再利用を通じて拡散トランスフォーマー(DiT)サンプリングを高速化するための効果的な戦略として機能キャッシングが登場した。キャッシュされたブロックからのプログレッシブエラーの蓄積は生成品質を著しく低下させるため、これは難しい問題である。本稿では,2つの重要なイノベーションを生かしたGradient-Perturbationd Cache (GOC)を提案する。 GOCはIS 216.28 (26.3%上)とFID 3.907 (43%下)をベースラインのDiTと比較して達成し、計算コストは同じである。
論文参考訳（メタデータ） (2025-03-07T05:31:47Z)
GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。 GAQATフレームワークの有効性を実験により検証した。
論文参考訳（メタデータ） (2024-12-07T06:07:21Z)
Beyond adaptive gradient: Fast-Controlled Minibatch Algorithm for large-scale optimization [1.6749379740049926]
そこで我々は,F-CMA,F-Controlled Mini-batchアルゴリズムを導入し,各エポックあたりの損失低減を確保するために,十分な減少条件とライン探索手順を備えたランダムリシャッフル法を提案する。テストでは、トレーニング時間全体の68%の削減、エポック毎の効率の最大20%向上、モデル精度の最大5%向上など、大幅な改善が見られた。
論文参考訳（メタデータ） (2024-11-24T11:46:47Z)
Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文参考訳（メタデータ） (2024-10-21T22:40:42Z)
Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。 FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文参考訳（メタデータ） (2024-03-06T05:13:28Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。