Fugu-MT 論文翻訳(概要): From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers

論文の概要: From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers

arxiv url: http://arxiv.org/abs/2503.06923v1
Date: Mon, 10 Mar 2025 05:09:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.70602
Title: From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers
Title（参考訳）: 再利用から予測へ:TaylorSeersによる拡散モデルの高速化
Authors: Jiacheng Liu, Chang Zou, Yuanhuiyi Lyu, Junjie Chen, Linfeng Zhang,
Abstract要約: Diffusion Transformers (DiT) は高忠実度画像とビデオ合成に革命をもたらしたが、リアルタイムアプリケーションでは計算要求は禁じられている。機能キャッシングは、前のタイムステップで機能をキャッシュし、次のタイムステップでそれらを再利用することで、拡散モデルを加速するために提案されている。我々はTaylorSeerを提案する。これはまず、将来の時間ステップにおける拡散モデルの特徴を、過去の時間ステップにおけるそれらの値に基づいて予測できることを示す。
参考スコア（独自算出の注目度）: 14.402483491830138
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion Transformers (DiT) have revolutionized high-fidelity image and video synthesis, yet their computational demands remain prohibitive for real-time applications. To solve this problem, feature caching has been proposed to accelerate diffusion models by caching the features in the previous timesteps and then reusing them in the following timesteps. However, at timesteps with significant intervals, the feature similarity in diffusion models decreases substantially, leading to a pronounced increase in errors introduced by feature caching, significantly harming the generation quality. To solve this problem, we propose TaylorSeer, which firstly shows that features of diffusion models at future timesteps can be predicted based on their values at previous timesteps. Based on the fact that features change slowly and continuously across timesteps, TaylorSeer employs a differential method to approximate the higher-order derivatives of features and predict features in future timesteps with Taylor series expansion. Extensive experiments demonstrate its significant effectiveness in both image and video synthesis, especially in high acceleration ratios. For instance, it achieves an almost lossless acceleration of 4.99$\times$ on FLUX and 5.00$\times$ on HunyuanVideo without additional training. On DiT, it achieves $3.41$ lower FID compared with previous SOTA at $4.53$$\times$ acceleration. %Our code is provided in the supplementary materials and will be made publicly available on GitHub. Our codes have been released in Github:https://github.com/Shenyi-Z/TaylorSeer
Abstract（参考訳）: Diffusion Transformers (DiT) は高忠実度画像とビデオ合成に革命をもたらしたが、リアルタイムアプリケーションでは計算要求は禁じられている。この問題を解決するために,前回のタイムステップで機能をキャッシュし,次回のタイムステップで再利用することで,拡散モデルを高速化する機能キャッシングが提案されている。しかし, 拡散モデルにおける特徴類似性が著しく低下し, 特徴キャッシングによる誤差が顕著に増加し, 生成品質が著しく低下する。この問題を解決するためにTaylorSeerを提案する。これはまず、将来の時間ステップにおける拡散モデルの特徴を、過去の時間ステップにおける値に基づいて予測できることを示す。特徴が時間段階にわたってゆっくりと連続的に変化するという事実に基づいて、TaylorSeerは特徴の高次微分を近似し、将来の時間段階における特徴をテイラー級数展開で予測するために微分法を用いる。広汎な実験は、画像合成とビデオ合成の両方において、特に高加速度比において、その有意な効果を示す。例えば、FLUXでは4.99$\times$、HunyuanVideoでは5.00$\times$とほぼ損失のない加速を実現している。 DiTでは、以前のSOTAに比べて3.41ドル低いFIDを4.53ドル/\times$Accelerationで達成している。 %Ourコードは補足資料で提供されており、GitHubで公開される予定である。私たちのコードはGithubで公開されています:https://github.com/Shenyi-Z/TaylorSeer

関連論文リスト

Forecasting When to Forecast: Accelerating Diffusion Models with Confidence-Gated Taylor [10.899451333703437]
拡散変換器(DiT)は視覚生成タスクにおいて顕著な性能を示した。最近のトレーニングなしのアプローチでは、推論を加速するために過去の表現をキャッシュしたり再利用したりすることで、タイムステップにまたがる機能の冗長性を悪用している。 TaylorSeerはキャッシュ機能を使用して、Taylor拡張を通じて将来の機能を予測する。そこで我々はTaylorベースの加速度をよりよく活用するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-08-04T09:39:31Z)
Radial Attention: $O(n\log n)$ Sparse Attention with Energy Decay for Long Video Generation [74.34633861289662]
ラジアル注意(英: Radial Attention)は、エネルギー崩壊を指数関数的に減衰する計算密度に変換する、$O(n log n)$の複雑さを持つスケーラブルなスパース注意機構である。 Wan2.1-14B、HunyuanVideo、Mochi 1の動画品質を維持しており、オリジナルより1.9ドルのスピードアップを実現している。
論文参考訳（メタデータ） (2025-06-24T17:59:59Z)
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model [55.64316746098431]
Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。 TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
論文参考訳（メタデータ） (2024-11-28T12:50:05Z)
Accelerating Vision Diffusion Transformers with Skip Branches [47.07564477125228]
Diffusion Transformers (DiT) は、新しい画像およびビデオ生成モデルアーキテクチャである。 DiTの実践的な展開は、シーケンシャルな denoising プロセスにおける計算複雑性と冗長性によって制約される。我々は,Skip-DiTを導入し,Skip-DiTをスキップブランチでSkip-DiTに変換し,特徴のスムーズさを高める。また、Skip-Cacheを導入します。これは、スキップブランチを使用して、推論時にタイムステップ毎にDiT機能をキャッシュします。
論文参考訳（メタデータ） (2024-11-26T17:28:10Z)
Accelerating Diffusion Transformers with Token-wise Feature Caching [19.140800616594294]
拡散変換器は、膨大な計算コストを犠牲にして、画像合成とビデオ合成の両方において有意な効果を示した。トークンワイズ機能キャッシングを導入し、キャッシングに最も適したトークンを適応的に選択できるようにします。 PixArt-$alpha$、OpenSora、DiTの実験では、トレーニングの必要なく、画像生成とビデオ生成の両方の有効性を実証しています。
論文参考訳（メタデータ） (2024-10-05T03:47:06Z)
HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration [31.982294870690925]
本稿では,HarmoniCaと呼ばれる新しい学習ベースのキャッシュフレームワークを提案する。 SDT(Step-Wise Denoising Training)を取り入れて、Denoisingプロセスの継続性を保証する。また、画像品質とキャッシュ利用のバランスをとるために、イメージエラープロキシガイドオブジェクト(IEPO)も組み込まれている。
論文参考訳（メタデータ） (2024-10-02T16:34:29Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
$Δ$-DiT: A Training-Free Acceleration Method Tailored for Diffusion Transformers [13.433352602762511]
トレーニング不要な推論アクセラレーションフレームワークであるDelta$-DiTを提案する。 $Delta$-DiTは、設計されたキャッシュ機構を使用して、初期サンプリングステージの後方DiTブロックと後期ステージの前方DiTブロックを高速化する。 PIXART-$alpha$とDiT-XLの実験は、$Delta$-DiTが20ステップ世代で1.6倍のスピードアップを達成できることを示した。
論文参考訳（メタデータ） (2024-06-03T09:10:44Z)
DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。より優れた効率性と競争効率を示す、平易なU字型アーキテクチャの2つのバリエーションを提供する。
論文参考訳（メタデータ） (2024-05-28T17:59:33Z)
Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-12-15T08:46:43Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
DiffSmooth: Certifiably Robust Learning via Diffusion Models and Local Smoothing [39.962024242809136]
そこでDiffSmoothを提案する。DiffSmoothは,まず拡散モデルを用いて対向的浄化を行い,その後,単純で効果的な局所的平滑化戦略により,精製したインスタンスを共通領域にマップする。例えば、DiffSmoothはSOTA認証の精度を36.0%$から$ell$1.5$の53.0%$に改善している。
論文参考訳（メタデータ） (2023-08-28T06:22:43Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models [166.64847903649598]
汎用的なパッチワイドトレーニングフレームワークであるPatch Diffusionを提案する。 Patch Diffusionは、データ効率を改善しながら、トレーニング時間を大幅に削減する。我々は最先端のベンチマークと一致して優れたFIDスコアを得る。
論文参考訳（メタデータ） (2023-04-25T02:35:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。