論文の概要: SoftCap: Soft-Budget Control for Diffusion Transformer Acceleration
- arxiv url: http://arxiv.org/abs/2605.27075v1
- Date: Tue, 26 May 2026 14:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.220501
- Title: SoftCap: Soft-Budget Control for Diffusion Transformer Acceleration
- Title(参考訳): SoftCap:拡散変圧器加速のためのソフト予算制御
- Authors: Yuhang Zhang, Junxiang Qiu, Huixia Ben, Zhenhua Tang, Shuo Wang, Yanbin Hao,
- Abstract要約: Diffusion Transformer (DiTs) は強力な視覚的品質を実現するが、その反復的復調過程には多くのコストを要する。
キャッシュベースのDiT推論のためのトレーニング不要な制御層である textbfSoftCap を提案する。
- 参考スコア(独自算出の注目度): 26.436968692847145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) achieve strong visual quality, but their iterative denoising process requires many costly Transformer evaluations. Training-free acceleration methods reduce this cost by caching, forecasting, or verifying intermediate features, yet the runtime decision of when to execute a Full step is often driven by fixed schedules or hand-tuned thresholds. We propose \textbf{SoftCap}, a training-free control layer for cache-based DiT inference. SoftCap couples a Trajectory Drift Observer, which estimates local cache risk from lightweight hidden-state statistics, with a Soft-Budget PI Controller, which adjusts the Full-triggering threshold from realized compute relative to a fixed reference profile. The budget is a soft ceiling: it shapes the threshold but does not require a run to spend a prescribed number of Full evaluations. On FLUX.1-dev, SoftCap improves over SpeCa at a comparable middle-compute operating point, raising ImageReward from 0.967 to 0.981 and reducing LPIPS-Full from 0.518 to 0.498 at nearly identical FLOPs, while target-sweep diagnostics show the intended soft-ceiling behavior as the budget is relaxed.
- Abstract(参考訳): Diffusion Transformer (DiTs) は強力な視覚的品質を実現するが、その反復的復調過程には多くのコストを要する。
トレーニング不要のアクセラレーションメソッドは、キャッシング、予測、中間機能検証によってこのコストを削減するが、フルステップの実行時期は、固定スケジュールや手動のしきい値によって決定されることが多い。
キャッシュベースのDiT推論のためのトレーニング不要な制御層である \textbf{SoftCap} を提案する。
SoftCapは、軽量な隠れ状態統計からローカルキャッシュリスクを推定するTrajectory Drift Observerと、固定された参照プロファイルに対して実現された計算から全トリガ閾値を調整するSoft-Budget PI Controllerを結合する。
予算は柔らかい天井であり、しきい値を形成するが、所定の数の完全な評価を走らせる必要はない。
FLUX.1-devでは、SoftCapはSpeCaを同等の中間計算点で改善し、ImageRewardを0.967から0.981に引き上げ、LPIPS-Fullを0.518から0.498にほぼ同じFLOPで削減した。
関連論文リスト
- Thinking in Scales: Accelerating Gigapixel Pathology Image Analysis via Adaptive Continuous Reasoning [52.41928980786654]
スライド画像全体に対してトークン効率のよいスケール空間連続推論を可能にするPathCTMを提案する。
PathCTMは診断推論を動的逐次情報追跡として定式化する。
必要な画像パッチの数を95.95%削減し、推論時間を約95.62%短縮し、AUCを劣化せずに維持する。
論文 参考訳(メタデータ) (2026-05-19T07:46:44Z) - A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache [8.614492355393578]
本研究では,グローバルパス計画問題として拡散加速を定式化する学習自由加速フレームワークDPCacheを提案する。
DPCacheは動的プログラミングを使用して、トラジェクティブの忠実さを維持しながら、全体のパスコストを最小限に抑える、キータイムステップの最適なシーケンスを選択する。
DiT、FLUX、HunyuanVideoの実験では、DPCacheは最小品質の損失で強力な加速を実現している。
論文 参考訳(メタデータ) (2026-02-26T06:13:33Z) - Uncertainty-Guided Inference-Time Depth Adaptation for Transformer-Based Visual Tracking [6.901398609610159]
トランスフォーマーベースの単一オブジェクトトラッカーは、最先端の精度を実現するが、固定深度推論に依存している。
本研究では,動的かつ不確実性を考慮した深度適応を実現するアーキテクチャ保存手法UncL-STARKを提案する。
GOT-10kとLaSOTの実験では、最大で12%のGFLOPs削減、8.9%のレイテンシ削減、10.8%の省エネが示されている。
論文 参考訳(メタデータ) (2026-02-18T03:18:48Z) - Constraint-Aware Discrete-Time PID Gain Optimization for Robotic Joint Control Under Actuator Saturation [18.71390061417015]
実効ループは離散時間実行、アクチュエータ飽和、小さな遅延と測定の不完全さによって連続時間理論から逸脱する。
飽和離散時間ジョイント制御のための実装認識分析およびチューニングワークフローを提案する。
論文 参考訳(メタデータ) (2026-01-26T16:11:05Z) - RAPID^3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformer [86.57077884971478]
ディフュージョントランスフォーマー(DiT)は、視覚発生時に優れるが、遅いサンプリングによって妨げられる。
本稿では,RAPID3: Tri-Level Reinforced Acceleration Policies for Diffusion Transformersを紹介する。
ベースジェネレータの更新をゼロにするイメージワイドアクセラレーションを提供する。
競合する生成品質でサンプリングを3倍近く高速化する。
論文 参考訳(メタデータ) (2025-09-26T13:20:52Z) - SADA: Stability-guided Adaptive Diffusion Acceleration [24.250318487331228]
拡散モデルは生成的タスクにおいて顕著な成功を収めたが、高い計算コストに悩まされている。
既存のトレーニングフリー加速戦略は、ステップごとの計算コストを削減しつつ、サンプリング時間を効果的に削減し、信頼性を低下させる。
本稿では, ODE に基づく生成モデルのサンプリングを高速化する新しいパラダイムとして, 安定誘導型適応拡散加速法 (SADA) を提案する。
論文 参考訳(メタデータ) (2025-07-23T02:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。