論文の概要: PromptTea: Let Prompts Tell TeaCache the Optimal Threshold
- arxiv url: http://arxiv.org/abs/2507.06739v1
- Date: Wed, 09 Jul 2025 10:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.557847
- Title: PromptTea: Let Prompts Tell TeaCache the Optimal Threshold
- Title(参考訳): PromptTea: PromptsがTeaCacheを最適な閾値にする
- Authors: Zishen Huang, Chunyu Yang, Mengyuan Ren,
- Abstract要約: 一般的な加速戦略は、一定の間隔でキャッシング機構を介してモデル出力を再利用することである。
本稿では,入力プロンプトから直接推定されるシーンの複雑さに基づいて,再利用しきい値を自動的に調整する手法であるPrompt-Complexity-Aware(PCA)キャッシングを提案する。
- 参考スコア(独自算出の注目度): 1.0665410339553834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress in video generation, inference speed remains a major bottleneck. A common acceleration strategy involves reusing model outputs via caching mechanisms at fixed intervals. However, we find that such fixed-frequency reuse significantly degrades quality in complex scenes, while manually tuning reuse thresholds is inefficient and lacks robustness. To address this, we propose Prompt-Complexity-Aware (PCA) caching, a method that automatically adjusts reuse thresholds based on scene complexity estimated directly from the input prompt. By incorporating prompt-derived semantic cues, PCA enables more adaptive and informed reuse decisions than conventional caching methods. We also revisit the assumptions behind TeaCache and identify a key limitation: it suffers from poor input-output relationship modeling due to an oversimplified prior. To overcome this, we decouple the noisy input, enhance the contribution of meaningful textual information, and improve the model's predictive accuracy through multivariate polynomial feature expansion. To further reduce computational cost, we replace the static CFGCache with DynCFGCache, a dynamic mechanism that selectively reuses classifier-free guidance (CFG) outputs based on estimated output variations. This allows for more flexible reuse without compromising output quality. Extensive experiments demonstrate that our approach achieves significant acceleration-for example, 2.79x speedup on the Wan2.1 model-while maintaining high visual fidelity across a range of scenes.
- Abstract(参考訳): 最近のビデオ生成の進歩にもかかわらず、推論速度は依然として大きなボトルネックとなっている。
一般的な加速戦略は、一定の間隔でキャッシング機構を介してモデル出力を再利用することである。
しかし、このような固定周波数の再利用は複雑なシーンにおける品質を著しく低下させるが、手動による再利用閾値の調整は非効率であり、堅牢性に欠ける。
そこで本研究では,入力プロンプトから直接推定されるシーンの複雑さに基づいて,再利用しきい値を自動的に調整する手法であるPrompt-Complexity-Aware(PCA)キャッシングを提案する。
プロンプトから派生したセマンティックキューを組み込むことで、PCAは従来のキャッシュ方式よりも適応的でインフォメーションな再利用決定を可能にする。
また、TeaCacheの背後にある前提を再検討し、重要な制限を特定します。
これを解決するために、ノイズ入力を分離し、意味のあるテキスト情報の寄与を高め、多変量多項式特徴拡張によるモデルの予測精度を向上させる。
計算コストをさらに削減するために,静的CFGCacheをDynCFGCacheに置き換える。
これにより、出力品質を損なうことなく、より柔軟な再利用が可能になる。
広汎な実験により,Wan2.1モデルの2.79倍の高速化が得られた。
関連論文リスト
- Model Reveals What to Cache: Profiling-Based Feature Reuse for Video Diffusion Models [41.11005178050448]
ProfilingDiTは、フォアグラウンドとバックグラウンドに焦点を当てたブロックを明示的にアンタングルする、新しいアダプティブキャッシュ戦略である。
当社のフレームワークは,総合的な品質指標間の視覚的忠実度を維持しながら,大幅な加速を実現している。
論文 参考訳(メタデータ) (2025-04-04T03:30:15Z) - Exposure Bias Reduction for Enhancing Diffusion Transformer Feature Caching [7.393824353099595]
Diffusion Transformer (DiT) は優れた生成機能を備えているが、計算複雑性が高いため大きな課題に直面している。
拡散過程のSNRに対するキャッシングの影響を解析する。
非露出バイアスを整合させる共同キャッシュ戦略であるEBキャッシュを導入する。
論文 参考訳(メタデータ) (2025-03-10T09:49:18Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model [55.64316746098431]
Timestep Embedding Aware Cache (TeaCache)は、タイムステップ間のモデルアウトプットの変動を推定し、活用する、トレーニング不要なキャッシュアプローチである。
TeaCacheはOpen-Sora-Plan上で最大4.41倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-11-28T12:50:05Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。