論文の概要: MAGE: All-[MASK] Block Already Knows Where to Look in Diffusion LLM
- arxiv url: http://arxiv.org/abs/2602.14209v1
- Date: Sun, 15 Feb 2026 16:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.739386
- Title: MAGE: All-[MASK] Block Already Knows Where to Look in Diffusion LLM
- Title(参考訳): MAGE:全[MASK]ブロックは拡散LDMのどこを見るべきかをすでに知っている
- Authors: Omin Kwon, Yeonjae Kim, Doyeon Kim, Minseo Kim, Yeonhong Park, Jae W. Lee,
- Abstract要約: ブロック拡散LDMは言語生成の次のパラダイムとして期待されているが、KVキャッシュの利用により、長期コンテキスト設定においてメモリアクセスが主要なボトルネックとなっている。
この研究は拡散をブロックする鍵となる機会を特定し、第1回All-[MASK]における注意は、重要なKVエントリと予算要件を確実に予測する。
MAGEはKV予算のごく一部でほぼロスレスの精度を達成し、最大3-4倍のエンドツーエンドのスピードアップを提供する。
軽量な微調整戦略は、[MASK]誘導パターンを最小限のコストで強化し、数時間のトレーニングしか必要としない。
- 参考スコア(独自算出の注目度): 9.69241599043101
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Block diffusion LLMs are emerging as a promising next paradigm for language generation, but their use of KV caching makes memory access a dominant bottleneck in long-context settings. While dynamic sparse attention has been actively explored, existing methods designed for autoregressive LLMs rely on approximate importance estimation and perform poorly when adapted to block diffusion. This work identifies a key opportunity unique to block diffusion: attention at the first All-[MASK] denoising step reliably predicts important KV entries and budget requirements, enabling MAGE to perform a single exact attention pass per block and reuse it for training-free sparse denoising. Across long-context benchmarks including LongBench and Needle-in-a-Haystack, MAGE achieves near-lossless accuracy with a fraction of the KV budget while delivering up to 3-4x end-to-end speedup, consistently outperforming AR-oriented sparse attention baselines. A lightweight fine-tuning strategy further strengthens [MASK]-guided patterns with minimal cost, requiring only a few hours of training on a single NVIDIA H100 GPU for both 1.5B and 7B models.
- Abstract(参考訳): ブロック拡散LDMは言語生成の次のパラダイムとして期待されているが、KVキャッシュの利用により、長期コンテキスト設定においてメモリアクセスが主要なボトルネックとなっている。
動的スパースアテンションの探索が盛んに行われているが, 自己回帰型LLMの設計手法は, 近似的重要度推定に依存し, ブロック拡散に適応すると性能が低下する。
第一のAll-[MASK]デノナイジングステップにおける注意は、重要なKVエントリと予算要件を確実に予測し、MAGEはブロック毎に1つの正確な注意パスを実行し、トレーニング不要なスパースデノナイジングのためにそれを再利用することができる。
LongBenchやNeedle-in-a-Haystackといった長期コンテキストベンチマークを通じて、MAGEはKV予算のごく一部でほぼ無作為な精度を実現し、最大3-4倍のエンドツーエンドのスピードアップを実現し、AR指向のスパースベースラインを一貫して上回っている。
軽量な微調整戦略は、[MASK]誘導パターンを最小限のコストで強化し、1.5Bモデルと7Bモデルの両方で1つのNVIDIA H100 GPUで数時間のトレーニングしか必要としない。
関連論文リスト
- FlashBlock: Attention Caching for Efficient Long-Context Block Diffusion [51.1618564189244]
FlashBlockは、安定したアテンション出力を再利用し、拡散プロセスを変更することなくアテンション計算とKVキャッシュアクセスを減らす、キャッシュされたブロック外部アテンションメカニズムである。
拡散言語モデルとビデオ生成の実験では、1.44$times$高いトークンスループットと1.6$times$の注意時間を短縮し、生成品質に無視できない影響を与えている。
論文 参考訳(メタデータ) (2026-02-05T04:57:21Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - SDAR-VL: Stable and Efficient Block-wise Diffusion for Vision-Language Understanding [25.2227348401136]
ブロック単位の離散拡散は、並列生成と因果依存性モデリングの間の魅力的なバランスを提供する。
大規模視覚言語理解へのブロックワイド離散拡散の最初の体系的応用である textbfSDAR-VL を提案する。
SDAR-VLは従来のブロック拡散よりも、エンハンチング効率、エンハンスコンバージェンス安定性、およびエンハンサック性能を一貫して改善することを示す。
論文 参考訳(メタデータ) (2025-12-16T04:12:52Z) - SparseD: Sparse Attention for Diffusion Language Models [98.05780626106555]
拡散言語モデル(DLM)は自己回帰モデル(AR)に代わる有望な代替手段を提供する
既存のオープンソースDLMは、高い推論遅延に悩まされている。
DLMのための新しいスパースアテンション手法であるスパースDを提案する。
論文 参考訳(メタデータ) (2025-09-28T18:10:10Z) - SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。
本研究では,SmallKVのスループットがベースライン法よりも1.75~2.56倍高いことを示す。
論文 参考訳(メタデータ) (2025-08-03T09:15:36Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。