論文の概要: FlashBlock: Attention Caching for Efficient Long-Context Block Diffusion
- arxiv url: http://arxiv.org/abs/2602.05305v1
- Date: Thu, 05 Feb 2026 04:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.764784
- Title: FlashBlock: Attention Caching for Efficient Long-Context Block Diffusion
- Title(参考訳): FlashBlock: 効率的な長期ブロック拡散のための注意キャッシュ
- Authors: Zhuokun Chen, Jianfei Cai, Bohan Zhuang,
- Abstract要約: FlashBlockは、安定したアテンション出力を再利用し、拡散プロセスを変更することなくアテンション計算とKVキャッシュアクセスを減らす、キャッシュされたブロック外部アテンションメカニズムである。
拡散言語モデルとビデオ生成の実験では、1.44$times$高いトークンスループットと1.6$times$の注意時間を短縮し、生成品質に無視できない影響を与えている。
- 参考スコア(独自算出の注目度): 51.1618564189244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating long-form content, such as minute-long videos and extended texts, is increasingly important for modern generative models. Block diffusion improves inference efficiency via KV caching and block-wise causal inference and has been widely adopted in diffusion language models and video generation. However, in long-context settings, block diffusion still incurs substantial overhead from repeatedly computing attention over a growing KV cache. We identify an underexplored property of block diffusion: cross-step redundancy of attention within a block. Our analysis shows that attention outputs from tokens outside the current block remain largely stable across diffusion steps, while block-internal attention varies significantly. Based on this observation, we propose FlashBlock, a cached block-external attention mechanism that reuses stable attention output, reducing attention computation and KV cache access without modifying the diffusion process. Moreover, FlashBlock is orthogonal to sparse attention and can be combined as a complementary residual reuse strategy, substantially improving model accuracy under aggressive sparsification. Experiments on diffusion language models and video generation demonstrate up to 1.44$\times$ higher token throughput and up to 1.6$\times$ reduction in attention time, with negligible impact on generation quality. Project page: https://caesarhhh.github.io/FlashBlock/.
- Abstract(参考訳): 分長ビデオや拡張テキストなどの長文コンテンツの生成は、現代の生成モデルにとってますます重要になっている。
ブロック拡散はKVキャッシングとブロックワイズ因果推論によって推論効率を向上し、拡散言語モデルやビデオ生成に広く採用されている。
しかし、長いコンテキスト設定では、ブロック拡散は、成長するKVキャッシュに対する繰り返しのコンピューティングの注意からかなりのオーバーヘッドを引き起こす。
ブロック拡散の未探索特性を,ブロック内の注意の相互冗長性として同定する。
解析の結果,現在のブロックの外側のトークンからの注意出力は拡散段階にわたってほぼ安定であり,ブロック内部の注意は著しく変化していることがわかった。
この観測に基づいて,FlashBlockを提案する。これは,安定した注意出力を再利用し,注意計算やKVキャッシュアクセスを拡散過程を変更することなく削減する,キャッシュ付きブロック外部アテンション機構である。
さらに、FlashBlockは注意をまき散らすのに直交しており、補助的な残留再利用戦略として組み合わせることができる。
拡散言語モデルとビデオ生成の実験では、1.44$\times$高いトークンスループット、1.6$\times$の注意時間削減、生成品質への無視的な影響が示されている。
プロジェクトページ: https://caesarhh.github.io/FlashBlock/。
関連論文リスト
- Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - VidLaDA: Bidirectional Diffusion Large Language Models for Efficient Video Understanding [52.69880888587866]
現在のビデオ大言語モデル(ビデオLLM)は、典型的にはエンコーダビジョンを介してフレームを符号化し、自己回帰(AR)LLMを使用して理解と生成を行う。
本稿では,言語モデル(DLM)に基づく拡散ビデオLLMであるVidLaDAを提案する。
実験によると、VidLaDAは最先端のARベースラインと競合し、DLMベースラインを上回り、MARS-Cacheは精度を損なうことなく12倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-25T15:02:01Z) - From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs [58.640039233470766]
原理的AR-to-block-diffusion適応は,DLMをスクラッチからトレーニングする上で,有効かつ効率的な代替手段であることを示す。
NBDiff-7B(BaseとInstruct)は、長文のモデリングと推論機能を継承し、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-07T10:28:21Z) - BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching [6.354675628412448]
Block-Wise Caching (BWCache)は、DiTベースのビデオ生成を高速化するトレーニング不要の手法である。
いくつかのビデオ拡散モデルの実験では、BWCacheは2.24$times$ speedupを同等の視覚的品質で達成している。
論文 参考訳(メタデータ) (2025-09-17T07:58:36Z) - Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models [15.853201399662344]
拡散言語モデルは自己回帰モデルよりも独特な利点を提供する。
確率モデリングに遅れがあり、固定長生成に制限される。
本稿では,離散化拡散モデルと自己回帰モデルとを補間するブロック拡散言語モデルについて紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:43:40Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。