論文の概要: Window-Diffusion: Accelerating Diffusion Language Model Inference with Windowed Token Pruning and Caching
- arxiv url: http://arxiv.org/abs/2601.20332v1
- Date: Wed, 28 Jan 2026 07:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.823502
- Title: Window-Diffusion: Accelerating Diffusion Language Model Inference with Windowed Token Pruning and Caching
- Title(参考訳): Window-Diffusion:ウィンドウド・トークン・プルーニングとキャッシングによる拡散言語モデル推論の高速化
- Authors: Fengrui Zuo, Zhiwei Ke, Yiming Liu, Wenqi Lou, Chao Wang, Xvehai Zhou,
- Abstract要約: 推論のためのウィンドウベースのトークンプルーニングとキャッシュ手法を提案する。
LLaDAとDreamの実験では、一致した計算予算の下では、提案手法は最大99タイムの推論高速化を実現する。
- 参考スコア(独自算出の注目度): 6.573956387361874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion language models (DLMs) generate text through iterative denoising, but inference requires full-sequence attention at every iteration, resulting in substantial redundant computation on masked tokens. Block-wise diffusion can reduce this cost, yet it typically relies on retraining and constrained update orders, limiting its direct applicability to pretrained DLMs. Our token-level analysis reveals pronounced structural locality in DLM inference. Decoding is driven by a small set of prefix-localized active tokens; the influence of distant undecoded context diminishes rapidly, and decoded tokens exhibit stage-wise temporal stability, enabling reuse of intermediate representations except for a brief post-decode transient. Motivated by these observations, we propose \textbf{\placeholder}\footnote{The source code is available at https://github.com/vhicrgit/Window-Diffusion.}, a window-based token pruning and caching method for inference. We maintain a local computation window that slides rightward as denoising progresses, and partition undecoded tokens into: (i) \textit{active tokens} that are computed online, (ii) \textit{buffer tokens} whose KV states are cached and periodically refreshed, and (iii) \textit{far-field tokens} that are pruned outside the window. Computation is restricted to active and buffer tokens within the window, while far-field tokens are omitted at each stage. Experiments on LLaDA and Dream show that, under matched compute budgets, our method achieves up to $99\times$ inference speedup while largely preserving generation performance.
- Abstract(参考訳): 拡散言語モデル (DLMs) は反復的推論によってテキストを生成するが、推論には反復ごとに全シーケンスの注意が必要である。
ブロックワイド拡散は、このコストを削減できるが、通常、再トレーニングと制限された更新順序に依存し、事前訓練されたDLMへの直接適用性を制限する。
トークンレベルの分析により,DLM推論における構造的局所性が明らかとなった。
復号化は少数のプレフィックス局所化されたアクティブトークンによって駆動され、遠方の非復号化コンテキストの影響は急速に減少し、復号化トークンは段階的に時間的安定性を示し、短い復号後トランジェントを除いて中間表現の再利用を可能にする。
ソースコードはhttps://github.com/vhicrgit/Window-Diffusion.comで公開されている。
これは、推論のためのウィンドウベースのトークンプルーニングとキャッシュメソッドである。
私たちは、デノイングの進行に伴って右にスライドするローカルな計算ウィンドウを保持し、未コーディングのトークンを次のように分割します。
(i)オンラインで計算されるtextit{active tokens}
(ii) KV状態がキャッシュされ、定期的に更新されるtextit{buffer tokens}
(iii)ウィンドウの外でプルーニングされるtextit{far-field tokens}。
計算はウィンドウ内のアクティブトークンとバッファトークンに制限され、遠距離フィールドトークンは各ステージで省略される。
LLaDAとDreamの実験では、一致した計算予算の下では、提案手法は、生成性能をほぼ保ちながら、最大99\times$推論スピードアップを達成する。
関連論文リスト
- Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:36:04Z) - Behavior-Equivalent Token: Single-Token Replacement for Long Prompts in LLMs [55.827877498548965]
単一プロンプト固有の振る舞い等価トークン([BE])を学習する軽量なトレーニングフレームワークを提案する。
フレームワークはまず[BE]に、元のシステムプロンプトの自然言語内容を再構成してエンコードし、その後、プロンプトの下流の振る舞いをこの単一のトークンに蒸留するように訓練する。
3つのデータセットに対する実証的な評価は、1つの[BE]トークンが3000倍の高速化を実現し、元のシステムの下流性能の約98%を維持していることを示している。
論文 参考訳(メタデータ) (2025-11-28T15:22:52Z) - Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning [23.58934174168992]
Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
ハードセグメンテーションなしでデコードウインドウを狭める正規化法である畳み込み復号法(Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
論文 参考訳(メタデータ) (2025-09-18T17:48:21Z) - SlimInfer: Accelerating Long-Context LLM Inference via Dynamic Token Pruning [3.502168555273189]
SlimInferは、フォワードパス中にあまり重要でないプロンプトトークンを直接プルーニングすることで推論を加速することを目的としている。
SlimInferは最大$mathbf2.53times$ time-to-first-token(TTFT)スピードアップと$mathbf1.88times$ end-to-end latency reduction for LLaMA3.1-8B-Instructを実現する。
論文 参考訳(メタデータ) (2025-08-08T16:42:38Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。