論文の概要: DARE: Diffusion Language Model Activation Reuse for Efficient Inference
- arxiv url: http://arxiv.org/abs/2605.08134v1
- Date: Fri, 01 May 2026 19:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.733037
- Title: DARE: Diffusion Language Model Activation Reuse for Efficient Inference
- Title(参考訳): DARE:効率的な推論のための拡散言語モデル活性化再利用
- Authors: Natalia Frumkin, Bokun Wang, Hung-Yueh Chiang, Chi-Chih Chang, Mohamed S. Abdelfattah, Diana Marculescu,
- Abstract要約: Diffusion Large Language Models (dLLMs) は、自動回帰(AR)モデルに代わる有望な代替品として登場した。
本稿では,キャッシュされたキー値(KV)アクティベーションを再利用するDARE-KVと,出力アクティベーションを再利用するDARE-Oの2つの相補的なメカニズムを紹介する。
DAREは1層あたりのレイテンシの最大1.20倍の削減を実現し、アテンションアクティベーションの最大87%を再利用する。
- 参考スコア(独自算出の注目度): 26.967107786841936
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to auto-regressive (AR) models, offering greater expressive capacity and potential for parallel generation and faster inference. However, open-source dLLMs remain immature, lagging behind AR models in both efficiency and quality. We identify an underexplored property of dLLMs: *token-wise redundancy* in bi-directional self-attention. Self-attention activations are highly correlated across tokens, and temporal changes in query representations can predict redundancy in corresponding key, value, and output activations. We introduce DARE, with two complementary mechanisms: DARE-KV, which reuses cached key-value (KV) activations, and DARE-O, which reuses output activations to reduce redundant computation while preserving quality. DARE achieves up to 1.20x per-layer latency reduction and reuses up to 87% of attention activations, with negligible degradation on reasoning and code-generation benchmarks. DARE-KV and DARE-O incur average performance drops of only 2.0% and 1.2%, respectively. Combined with techniques such as prefix caching and Fast-dLLM, DARE provides additive gains without retraining. These results establish token-wise reuse as an effective strategy for improving the efficiency of diffusion-based LLMs while preserving generation fidelity. Code: https://github.com/enyac-group/DARE
- Abstract(参考訳): Diffusion Large Language Models (dLLMs) は、自動回帰(AR)モデルに代わる有望な代替品として登場し、より表現力が高く、並列生成と高速な推論を可能にする。
しかし、オープンソースのdLLMは未成熟のままであり、効率と品質の両方でARモデルに遅れを取っている。
両方向自己注意におけるdLLMs:*token-wiseredundancy*の未探索特性を同定する。
セルフアテンションアクティベーションはトークン間で強く相関しており、クエリ表現の時間的変化は、対応するキー、値、出力アクティベーションの冗長性を予測できる。
DARE-KVはキャッシュされたキー値(KV)のアクティベーションを再利用し、DARE-Oは出力のアクティベーションを再利用し、品質を保ちながら冗長な計算を減らす。
DAREは1層あたりのレイテンシの最大1.20倍の削減を実現し、アテンションアクティベーションの最大87%を再利用する。
DARE-KV と DARE-O はそれぞれ2.0% と 1.2% に低下した。
プレフィックスキャッシュやFast-dLLMといったテクニックと組み合わせることで、DAREは再トレーニングなしに付加的なゲインを提供する。
これらの結果は, 生成忠実性を維持しつつ拡散型LDMの効率を向上させるための効果的な戦略として, トークン単位の再利用を確立した。
コード:https://github.com/enyac-group/DARE
関連論文リスト
- $R^2$-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction [28.068667649331246]
推論とトレーニングの両方の観点から,デコード冗長性を低減するための統一的なフレームワークを提案する。
R2$-dLLMは、既存のデコード戦略と比較して、デコードステップの数を最大75%削減する。
論文 参考訳(メタデータ) (2026-04-21T02:26:08Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization [17.190984773586745]
現在のARベースのビジュアル生成モデルは、リソース制約のあるデバイスに適用性を制限するために、かなりの計算資源を必要とする。
性能を維持しつつ,VARモデルの効率を向上させるために,効率的な注意機構と低ビット量子化手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T07:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。