論文の概要: A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation
- arxiv url: http://arxiv.org/abs/2510.19755v2
- Date: Thu, 23 Oct 2025 09:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.149919
- Title: A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation
- Title(参考訳): 拡散モデルにおけるキャッシュ手法の検討:効率的なマルチモーダル生成に向けて
- Authors: Jiacheng Liu, Xinyu Wang, Yuqi Lin, Zhikai Wang, Peiru Wang, Peiliang Cai, Qinming Zhou, Zhengan Yan, Zexuan Yan, Zhengyi Shi, Chang Zou, Yue Ma, Linfeng Zhang,
- Abstract要約: 拡散モデルは、異常な生成品質と制御性のために、現代の生成AIの基盤となっている。
Diffusion Cachingは、トレーニングのない、アーキテクチャに依存しない、効率的な推論パラダイムを提供する。
計算機能レベルのクロスステップの再利用と層間スケジューリングを有効にすることにより、モデルパラメータを変更することなく削減できる。
- 参考スコア(独自算出の注目度): 15.689880312464004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Models have become a cornerstone of modern generative AI for their exceptional generation quality and controllability. However, their inherent \textit{multi-step iterations} and \textit{complex backbone networks} lead to prohibitive computational overhead and generation latency, forming a major bottleneck for real-time applications. Although existing acceleration techniques have made progress, they still face challenges such as limited applicability, high training costs, or quality degradation. Against this backdrop, \textbf{Diffusion Caching} offers a promising training-free, architecture-agnostic, and efficient inference paradigm. Its core mechanism identifies and reuses intrinsic computational redundancies in the diffusion process. By enabling feature-level cross-step reuse and inter-layer scheduling, it reduces computation without modifying model parameters. This paper systematically reviews the theoretical foundations and evolution of Diffusion Caching and proposes a unified framework for its classification and analysis. Through comparative analysis of representative methods, we show that Diffusion Caching evolves from \textit{static reuse} to \textit{dynamic prediction}. This trend enhances caching flexibility across diverse tasks and enables integration with other acceleration techniques such as sampling optimization and model distillation, paving the way for a unified, efficient inference framework for future multimodal and interactive applications. We argue that this paradigm will become a key enabler of real-time and efficient generative AI, injecting new vitality into both theory and practice of \textit{Efficient Generative Intelligence}.
- Abstract(参考訳): 拡散モデルは、異常な生成品質と制御性のために、現代の生成AIの基盤となっている。
しかし、それら固有の \textit{multi-step iterations} と \textit{complex backbone network} は計算オーバーヘッドと生成遅延を禁止し、リアルタイムアプリケーションにとって大きなボトルネックとなる。
既存の加速技術は進歩しているが、適用可能性の制限、高いトレーニングコスト、品質劣化といった課題に直面している。
このような背景から,‘textbf{Diffusion Caching} はトレーニング不要でアーキテクチャに依存しない,効率的な推論パラダイムを提供する。
その中心となるメカニズムは拡散過程における本質的な計算冗長性を特定し再利用する。
機能レベルのクロスステップの再利用と層間スケジューリングを可能にすることで、モデルパラメータを変更することなく計算を削減できる。
本稿では,拡散キャッシングの理論的基礎と進化を体系的に検討し,その分類と解析のための統一的な枠組みを提案する。
代表法の比較分析により, 拡散キャッシングは \textit{static reuse} から \textit{dynamic prediction} へと進化することを示した。
この傾向は、様々なタスクにわたるキャッシングの柔軟性を高め、サンプリング最適化やモデルの蒸留といった他の加速技術との統合を可能にし、将来のマルチモーダルおよびインタラクティブなアプリケーションのための統一的で効率的な推論フレームワークの道を開く。
我々は、このパラダイムがリアルタイムかつ効率的な生成AIの鍵となると論じ、理論と実践の両方に新たな活力を注入する。
関連論文リスト
- Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - KDC-Diff: A Latent-Aware Diffusion Model with Knowledge Retention for Memory-Efficient Image Generation [2.0250638970950905]
KDC-Diffは、ハイパフォーマンスを維持しながら計算オーバーヘッドを大幅に削減するために設計された、新しくスケーラブルな生成フレームワークである。
本モデルでは,FID,CLIP,KID,LPIPSの指標に対して,パラメータ数,推論時間,FLOPの大幅な削減を実現し,高い性能を示す。
論文 参考訳(メタデータ) (2025-05-11T14:40:51Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models [93.76814568163353]
本稿では,2段階の拡散モデルに対する新しい最適化フレームワークを提案する。
このフレームワークは、微調整と未学習のプロセスを統一的なフェーズに統合する。
様々なプルーニングや概念未学習の手法と互換性がある。
論文 参考訳(メタデータ) (2024-12-19T19:13:18Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。