論文の概要: Beyond Few-Step Inference: Accelerating Video Diffusion Transformer Model Serving with Inter-Request Caching Reuse
- arxiv url: http://arxiv.org/abs/2604.04451v1
- Date: Mon, 06 Apr 2026 05:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.109565
- Title: Beyond Few-Step Inference: Accelerating Video Diffusion Transformer Model Serving with Inter-Request Caching Reuse
- Title(参考訳): Few-Step Inferenceを超えて:リクエスト間キャッシングを再利用したビデオ拡散変圧器モデルの高速化
- Authors: Hao Liu, Ye Huang, Chenghuan Huang, Zhenyi Zheng, Jiangsu Du, Ziyang Ma, Jing Lyu, Yutong Lu,
- Abstract要約: Chorusは、リクエスト間の類似性を活用して、ビデオ拡散モデルの提供を加速するキャッシュアプローチである。
コーラスは工業用4段蒸留機で最大45%のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 19.120308047100057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Diffusion Transformer (DiT) models are a dominant approach for high-quality video generation but suffer from high inference cost due to iterative denoising. Existing caching approaches primarily exploit similarity within the diffusion process of a single request to skip redundant denoising steps. In this paper, we introduce Chorus, a caching approach that leverages similarity across requests to accelerate video diffusion model serving. Chorus achieves up to 45\% speedup on industrial 4-step distilled models, where prior intra-request caching approaches are ineffective. Particularly, Chorus employs a three-stage caching strategy along the denoising process. Stage 1 performs full reuse of latent features from similar requests. Stage 2 exploits inter-request caching in specific latent regions during intermediate denoising steps. This stage is combined with Token-Guided Attention Amplification to improve semantic alignment between the generated video and the conditional prompts, thereby extending the applicability of full reuse to later denoising steps.
- Abstract(参考訳): ビデオ拡散変換器(DiT)モデルは、高品質なビデオ生成において支配的なアプローチであるが、反復的復調により高い推論コストに悩まされている。
既存のキャッシュアプローチは主に、1つのリクエストの拡散プロセス内の類似性を利用して、冗長なdenoisingステップをスキップする。
本稿では、要求間の類似性を利用してビデオ拡散モデル提供を高速化するキャッシュ手法であるChorusを紹介する。
コーラスは、産業用4段階蒸留モデルの最大45倍のスピードアップを達成する。
特にChorusは、デノナイジングプロセスに沿って3段階のキャッシュ戦略を採用している。
ステージ1は、同様の要求から潜在機能を完全に再利用する。
ステージ2は、中間段階における特定の潜伏領域の要求間キャッシュを利用する。
このステージは、Token-Guided Attention Amplificationと組み合わせて、生成されたビデオと条件付きプロンプトのセマンティックアライメントを改善することで、完全な再利用を後続のデノイングステップに拡張する。
関連論文リスト
- Accelerating Diffusion-based Video Editing via Heterogeneous Caching: Beyond Full Computing at Sampled Denoising Timestep [37.62908191585867]
HetCacheは、ビデオ・ツー・ビデオ(MV2V)の生成と編集のためのトレーニング不要な拡散加速フレームワークである。
編集の一貫性と忠実さを維持しながら、冗長な注意操作を低減する。
実験によると、HetCacheは2.67$times$レイテンシのスピードアップやFLOPの削減など、目立った加速を実現している。
論文 参考訳(メタデータ) (2026-03-25T12:53:31Z) - WorldCache: Content-Aware Caching for Accelerated Video World Models [50.7543797435026]
我々はPerception-Constrained Dynamic CaCacheフレームワークであるtextbfWorldCacheを紹介する。
WorldCacheは、機能をいつ、どのように再利用するかを改善します。
PAI-Benchで評価されたCosmos-2.5-2Bでは、WorldCacheはtextbf$2.3times$推論スピードアップを実現し、textbf99.4%のベースライン品質を維持している。
論文 参考訳(メタデータ) (2026-03-23T17:59:54Z) - Streaming Autoregressive Video Generation via Diagonal Distillation [50.13573884115673]
自己回帰モデルは、シーケンシャルフレーム合成のための自然なフレームワークを提供するが、高い忠実性を達成するためには重い計算を必要とする。
ビデオチャンクとデノイングステップの時間的情報を活用するために,ダイアゴナル蒸留を提案する。
本手法は,2.61秒(最大31FPS)で5秒ビデオを生成し,未蒸留モデル上で277.3倍のスピードアップを実現する。
論文 参考訳(メタデータ) (2026-03-10T10:45:24Z) - SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching [75.02865981328509]
キャッシュは、以前計算されたモデル出力をタイムステップで再利用することで計算を減らす。
本稿では,動的キャッシュポリシーであるSensitivity-Aware Caching(SenCache)を提案する。
SenCacheは、同様の計算予算の下で、既存のキャッシュメソッドよりも視覚的品質が向上する。
論文 参考訳(メタデータ) (2026-02-27T17:36:09Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - TaoCache: Structure-Maintained Video Generation Acceleration [4.594224594572109]
ビデオ拡散モデルのためのトレーニング不要のプラグイン・アンド・プレイキャッシュ戦略であるTaoCacheを提案する。
モデルのノイズ出力を予測するために固定点視点を採用しており、特に遅延雑音発生の段階で有効である。
論文 参考訳(メタデータ) (2025-08-12T14:40:36Z) - Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [57.7533917467934]
EasyCacheは、ビデオ拡散モデルのためのトレーニング不要のアクセラレーションフレームワークである。
我々は,OpenSora,Wan2.1,HunyuanVideoなどの大規模ビデオ生成モデルについて包括的な研究を行っている。
提案手法は,従来のベースラインと比較して推定時間を最大2.1-3.3$times$に短縮する。
論文 参考訳(メタデータ) (2025-07-03T17:59:54Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。