論文の概要: Elastic-dLLM: Position Preserving Context Compression and Augmentation of Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2605.18165v1
- Date: Mon, 18 May 2026 10:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.30664
- Title: Elastic-dLLM: Position Preserving Context Compression and Augmentation of Diffusion LLMs
- Title(参考訳): 弾性dLLM:拡散LDMのコンテクスト圧縮と増大のための位置保存
- Authors: Junyi Wu, Tianchen Zhao, Shaoqiu Zhang, Linfeng Zhang, Guohao Dai, Yu Wang,
- Abstract要約: 我々は, [MASK]トークンの観点から, dLLMの冗長性を再考する。
位置保存[MASK]トークン圧縮と端末認識拡張を提案する。
- 参考スコア(独自算出の注目度): 21.48723638711438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike autoregressive models, which generate one token at a time, dLLMs denoise a chunk of [MASK] tokens jointly and sample one or more tokens per step; despite enabling parallel decoding, this process incurs substantial computational cost due to the large chunk size of masked tokens. We observe that much of this cost is spent on repeatedly processing the preceding context and many [MASK] tokens with the same feature representations, indicating considerable computational redundancy. In this work, we revisit dLLM's redundancy from the perspective of [MASK] tokens. Through systematic analysis, we verify the redundancy of [MASK] tokens while revealing their critical role in providing structural information. Guided by these findings, we propose position-preserving [MASK] token compression and terminal-aware augmentation. By compressing redundant [MASK] computation, this approach accelerates decoding and further provides a natural extension toward context-folding-like long-context scaling under limited input-length constraints for full-sequence dLLMs such as LLaDA-8B-Instruct and LLaDA-1.5. Moreover, for block dLLMs such as LLaDA2.0-mini, it augments the context with a protected terminal [MASK] token to enhance generation quality with negligible overhead.
- Abstract(参考訳): 一度に1つのトークンを生成する自己回帰モデルとは異なり、dLLMsは[MASK]トークンのチャンクを1ステップに1つまたは複数のトークンをサンプリングする。
このコストの多くは、前回のコンテキストと、同じ特徴表現を持つ多くの[MASK]トークンの繰り返し処理に費やされており、かなりの計算冗長性を示している。
本研究では, [MASK]トークンの観点から, dLLMの冗長性を再考する。
体系的な分析を通じて, [MASK]トークンの冗長性を検証し, 構造情報の提供における重要な役割を明らかにした。
これらの知見に導かれ, 位置保存[MASK]トークン圧縮と端末認識拡張を提案する。
冗長な[MASK]計算を圧縮することにより、デコーディングを高速化し、LLaDA-8B-InstructやLLaDA-1.5のようなフルシーケンスdLLMに対して、限られた入力長制約の下でコンテキスト折り畳みのような長期コンテキストスケーリングを自然な拡張を提供する。
さらに、LLaDA2.0-miniのようなブロックdLLMでは、保護された端末[MASK]トークンでコンテキストを拡張し、無視できるオーバーヘッドで生成品質を向上させる。
関連論文リスト
- Compressing Sequences in the Latent Embedding Space: $K$-Token Merging for Large Language Models [35.95256971588258]
大規模言語モデルは、長いプロンプトを処理する際にかなりの計算とメモリコストを発生させる。
我々は,Kトークンの連続ブロックを1つの埋め込みにマージする潜在空間圧縮フレームワークであるK-Token Mergingを提案する。
実験の結果, K-Token Mergingは最大75%の入力長削減を実現し, 性能劣化を最小限に抑えることができた。
論文 参考訳(メタデータ) (2026-04-16T15:32:45Z) - Latent-Condensed Transformer for Efficient Long Context Modeling [60.72493959155964]
大規模言語モデルに対するLCA(Latent-Condensed Attention)を提案する。
LCAはMLAの潜伏空間内のコンテキストを凝縮し、表現はセマンティック潜伏ベクトルと位置キーに切り離される。
LCAは、最大2.5$times$プリフィルスピードアップと128Kコンテキストでの90%のKVキャッシュ削減を実現している。
論文 参考訳(メタデータ) (2026-04-14T08:40:31Z) - Dependency-Aware Parallel Decoding via Attention for Diffusion LLMs [8.800270601225668]
拡散LDMの並列復号化は,各復号化ステップがトークン単位の周縁分布のみを提供するため困難である。
本稿では、自己アテンションを用いて条件依存グラフを誘導する簡易な訓練不要な復号法である依存性認識並列復号法(DAPD)を提案する。
論文 参考訳(メタデータ) (2026-03-13T13:52:02Z) - DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - Beyond Next-Token Prediction: A Performance Characterization of Diffusion versus Autoregressive Language Models [82.87985794856803]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成した。
最近、Diffusion Language Models (DLM) が有望な代替アーキテクチャとして登場した。
論文 参考訳(メタデータ) (2025-10-05T10:50:52Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。