論文の概要: Forecasting When to Forecast: Accelerating Diffusion Models with Confidence-Gated Taylor
- arxiv url: http://arxiv.org/abs/2508.02240v2
- Date: Tue, 05 Aug 2025 02:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 13:15:14.143418
- Title: Forecasting When to Forecast: Accelerating Diffusion Models with Confidence-Gated Taylor
- Title(参考訳): 予測時予測:信頼グラフ付きテイラー拡散モデルの高速化
- Authors: Xiaoliu Guan, Lielin Jiang, Hanqi Chen, Xu Zhang, Jiaxing Yan, Guanzhong Wang, Yi Liu, Zetao Zhang, Yu Wu,
- Abstract要約: 拡散変換器(DiT)は視覚生成タスクにおいて顕著な性能を示した。
最近のトレーニングなしのアプローチでは、推論を加速するために過去の表現をキャッシュしたり再利用したりすることで、タイムステップにまたがる機能の冗長性を悪用している。
TaylorSeerはキャッシュ機能を使用して、Taylor拡張を通じて将来の機能を予測する。
そこで我々はTaylorベースの加速度をよりよく活用するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.899451333703437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have demonstrated remarkable performance in visual generation tasks. However, their low inference speed limits their deployment in low-resource applications. Recent training-free approaches exploit the redundancy of features across timesteps by caching and reusing past representations to accelerate inference. Building on this idea, TaylorSeer instead uses cached features to predict future ones via Taylor expansion. However, its module-level prediction across all transformer blocks (e.g., attention or feedforward modules) requires storing fine-grained intermediate features, leading to notable memory and computation overhead. Moreover, it adopts a fixed caching schedule without considering the varying accuracy of predictions across timesteps, which can lead to degraded outputs when prediction fails. To address these limitations, we propose a novel approach to better leverage Taylor-based acceleration. First, we shift the Taylor prediction target from the module level to the last block level, significantly reducing the number of cached features. Furthermore, observing strong sequential dependencies among Transformer blocks, we propose to use the error between the Taylor-estimated and actual outputs of the first block as an indicator of prediction reliability. If the error is small, we trust the Taylor prediction for the last block; otherwise, we fall back to full computation, thereby enabling a dynamic caching mechanism. Empirical results show that our method achieves a better balance between speed and quality, achieving a 3.17x acceleration on FLUX, 2.36x on DiT, and 4.14x on Wan Video with negligible quality drop. The Project Page is \href{https://cg-taylor-acce.github.io/CG-Taylor/}{here.}
- Abstract(参考訳): 拡散変換器(DiT)は視覚生成タスクにおいて顕著な性能を示した。
しかし、その低推論速度は、低リソースアプリケーションへのデプロイメントを制限する。
最近のトレーニングなしのアプローチでは、推論を加速するために過去の表現をキャッシュしたり再利用したりすることで、タイムステップにまたがる機能の冗長性を悪用している。
このアイデアに基づいて、TaylorSeerはキャッシュされた機能を使用して、Taylor拡張を通じて将来の機能を予測する。
しかし、モジュールレベルの予測は、すべてのトランスフォーマーブロック(例えば、注意またはフィードフォワードモジュール)にわたって、微細な中間機能を格納する必要があるため、メモリと計算のオーバーヘッドが顕著になる。
さらに、時間経過毎に予測の精度が変わることを考慮せずに、固定されたキャッシュスケジュールを採用しており、予測が失敗すると出力が劣化する可能性がある。
これらの制限に対処するために、テイラーベースの加速度をよりよく活用するための新しいアプローチを提案する。
まず、Taylor予測ターゲットをモジュールレベルから最終ブロックレベルにシフトし、キャッシュされた機能の数を大幅に削減する。
さらに、トランスフォーマーブロック間の強い逐次依存関係を観測し、予測信頼性の指標として第1ブロックのテイラー推定結果と実際の出力値の誤差を用いることを提案する。
エラーが小さい場合、最後のブロックのテイラー予想を信頼する。そうでなければ、完全な計算にフォールバックし、動的キャッシュ機構を可能にする。
その結果, FLUXで3.17倍, DiTで2.36倍, Wan Videoで4.14倍の高速化を実現し, 速度と品質のバランスが良くなった。
Project Page は \href{https://cg-taylor-acce.github.io/CG-Taylor/}{here である。
※
関連論文リスト
- Temporal Difference Flows [82.24174052059352]
Geometric Horizon Models (GHMs) は、将来の状態を直接予測することで、魅力的な代替手段を提供する。
既存の手法は、列車時のブートストラップ予測や、長い地平線で高品質な予測を生成するのに苦慮している。
本稿では,従来の手法の水平長の5倍以上の精度で正確なGHMを学習するために,確率経路上の新しいベルマン方程式の構造を利用した時間差流(TD-Flow)を提案する。
論文 参考訳(メタデータ) (2025-03-12T20:30:07Z) - From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers [14.402483491830138]
Diffusion Transformers (DiT) は高忠実度画像とビデオ合成に革命をもたらしたが、リアルタイムアプリケーションでは計算要求は禁じられている。
機能キャッシングは、前のタイムステップで機能をキャッシュし、次のタイムステップでそれらを再利用することで、拡散モデルを加速するために提案されている。
我々はTaylorSeerを提案する。これはまず、将来の時間ステップにおける拡散モデルの特徴を、過去の時間ステップにおけるそれらの値に基づいて予測できることを示す。
論文 参考訳(メタデータ) (2025-03-10T05:09:42Z) - Video Prediction Transformers without Recurrence or Convolution [65.93130697098658]
我々は、Gated Transformerを完全にベースとしたフレームワークであるPredFormerを提案する。
本稿では,映像予測の文脈における3次元注意の包括的分析を行う。
精度と効率の両面で大きな改善は、PredFormerの可能性を強調している。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning [33.28797183140384]
時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。
ラムダ$-returnターゲットの計算モデルからトランジションの予測確率を利用するチャンク付きTDを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:49:29Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Taylor saves for later: disentanglement for video prediction using
Taylor representation [5.658571172210811]
ビデオフレームにおけるTaylor特徴と残像をアンタングル化する2分岐Seq-to-seqディープモデルを提案する。
TaylorCell はビデオフレームの高次元特徴を有限テイラー級数に拡張し、潜在法則を記述する。
MCUは過去のフレームの情報をすべて蒸留し、予測されたテイラー特徴をTPUから補正する。
論文 参考訳(メタデータ) (2021-05-24T01:59:21Z) - Learnable and Instance-Robust Predictions for Online Matching, Flows and
Load Balancing [12.961453245099044]
本稿では,アルゴリズムが形式的に学習可能で,例えば頑健であることを要求して,予測を伴うアルゴリズムの拡張モデルを提案する。
ネットワークフロー割当問題と制限された割当ミスパン最小化の予測を含むオンラインアルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-11-23T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。