論文の概要: CHAI: CacHe Attention Inference for text2video
- arxiv url: http://arxiv.org/abs/2602.16132v1
- Date: Wed, 18 Feb 2026 01:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.487473
- Title: CHAI: CacHe Attention Inference for text2video
- Title(参考訳): CHAI: text2 video の CacHe Attention Inference
- Authors: Joel Mathew Cherian, Ashutosh Muralidhara Bharadwaj, Vima Gupta, Anand Padmanabha Iyer,
- Abstract要約: CHAIは、ビデオ品質を維持しながらレイテンシを低減するために、クロス推論キャッシュを使用することを目指している。
キャッシュアテンション(Cache Attention)は、クロス推論ラテントをまたいだ共有オブジェクト/シーンへの参加を効果的に行う方法として紹介する。
キャッシュアテンション(Cache Attention, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション
- 参考スコア(独自算出の注目度): 0.14136330551561624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video diffusion models deliver impressive results but remain slow because of the sequential denoising of 3D latents. Existing approaches to speed up inference either require expensive model retraining or use heuristic-based step skipping, which struggles to maintain video quality as the number of denoising steps decreases. Our work, CHAI, aims to use cross-inference caching to reduce latency while maintaining video quality. We introduce Cache Attention as an effective method for attending to shared objects/scenes across cross-inference latents. This selective attention mechanism enables effective reuse of cached latents across semantically related prompts, yielding high cache hit rates. We show that it is possible to generate high-quality videos using Cache Attention with as few as 8 denoising steps. When integrated into the overall system, CHAI is 1.65x - 3.35x faster than baseline OpenSora 1.2 while maintaining video quality.
- Abstract(参考訳): テキストとビデオの拡散モデルは印象的な結果をもたらすが、3Dラテントを連続的に分解するため遅いままである。
推論を高速化する既存のアプローチは、高価なモデル再訓練を必要とするか、ヒューリスティックベースのステップスキップを使用するかのいずれかである。
当社のCHAIは、ビデオ品質を維持しながらレイテンシを低減するために、クロス推論キャッシュを使用することを目的としています。
キャッシュアテンション(Cache Attention)は、クロス推論ラテントをまたいだ共有オブジェクト/シーンへの参加を効果的に行う方法として紹介する。
この選択的なアテンションメカニズムにより、セマンティックなプロンプトをまたいだキャッシュラテントを効果的に再利用することができ、高いキャッシュヒット率が得られる。
キャッシュアテンション(Cache Attention, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテンション(キャッシュアテンション、キャッシュアテンション, キャッシュアテンション, キャッシュアテンション, キャッシュアテン
全体的なシステムに統合される場合、CHAIはビデオ品質を維持しながらベースラインのOpenSora 1.2より1.65倍から3.35倍高速である。
関連論文リスト
- Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention [37.91838955436801]
自動回帰ビデオ拡散モデルは、ストリーミング生成、ロングフォーム合成への扉を開くこと、ビデオワールドモデル、インタラクティブなニューラルゲームエンジンを可能にする。
生成が進むにつれて、KVキャッシュが増加し、レイテンシの増加とGPUメモリのエスカレーションが生じる。
我々は、自己回帰拡散のための統合されたトレーニングなしアテンションフレームワークを提案する: TempCacheは、時間的対応によるKVキャッシュをバウンドキャッシュ成長に圧縮し、AnnCAは、高速近傍マッチングを用いてフレーム関連プロンプトを選択することで、クロスアテンションを加速し、AnnSAは各クエリを制限して自己アテンションを拡大する。
論文 参考訳(メタデータ) (2026-02-02T08:31:21Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation [40.968338980157846]
拡散モデルに基づくビデオ生成の先進的な研究領域として、トレーニングフリー加速が出現している。
本稿では,推論過程を符号化・復号化・復号化段階に分解する。
本稿では,メモリ消費を減らすためのステージ固有の戦略を提案する。
論文 参考訳(メタデータ) (2025-10-06T20:54:44Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [57.7533917467934]
EasyCacheは、ビデオ拡散モデルのためのトレーニング不要のアクセラレーションフレームワークである。
我々は,OpenSora,Wan2.1,HunyuanVideoなどの大規模ビデオ生成モデルについて包括的な研究を行っている。
提案手法は,従来のベースラインと比較して推定時間を最大2.1-3.3$times$に短縮する。
論文 参考訳(メタデータ) (2025-07-03T17:59:54Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality [58.80996741843102]
FasterCacheは、高品質な生成を伴うビデオ拡散モデルの推論を高速化するために設計された、トレーニング不要の戦略である。
我々は、FasterCacheがビデオの質をベースラインと同等に保ちながら、ビデオ生成を著しく加速できることを示した。
論文 参考訳(メタデータ) (2024-10-25T07:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。