論文の概要: WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference
- arxiv url: http://arxiv.org/abs/2512.22737v1
- Date: Sun, 28 Dec 2025 01:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.194876
- Title: WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference
- Title(参考訳): WeDLM:高速推論のための標準因果注意による拡散言語モデルの再構成
- Authors: Aiwei Liu, Minghua He, Shaoxun Zeng, Sijun Zhang, Linhao Zhang, Chuhan Wu, Wei Jia, Yuan Liu, Xiao Zhou, Jie Zhou,
- Abstract要約: 本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
- 参考スコア(独自算出の注目度): 44.87788417755154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) generation is the standard decoding paradigm for Large Language Models (LLMs), but its token-by-token nature limits parallelism at inference time. Diffusion Language Models (DLLMs) offer parallel decoding by recovering multiple masked tokens per step; however, in practice they often fail to translate this parallelism into deployment speed gains over optimized AR engines (e.g., vLLM). A key reason is that many DLLMs rely on bidirectional attention, which breaks standard prefix KV caching and forces repeated contextualization, undermining efficiency. We propose WeDLM, a diffusion decoding framework built entirely on standard causal attention to make parallel generation prefix-cache friendly. The core idea is to let each masked position condition on all currently observed tokens while keeping a strict causal mask, achieved by Topological Reordering that moves observed tokens to the physical prefix while preserving their logical positions. Building on this property, we introduce a streaming decoding procedure that continuously commits confident tokens into a growing left-to-right prefix and maintains a fixed parallel workload, avoiding the stop-and-wait behavior common in block diffusion methods. Experiments show that WeDLM preserves the quality of strong AR backbones while delivering substantial speedups, approaching 3x on challenging reasoning benchmarks and up to 10x in low-entropy generation regimes; critically, our comparisons are against AR baselines served by vLLM under matched deployment settings, demonstrating that diffusion-style decoding can outperform an optimized AR engine in practice.
- Abstract(参考訳): 自己回帰(AR)生成は、LLM(Large Language Models)の標準デコーディングパラダイムであるが、トークン・バイ・トークンの性質は推論時に並列性を制限している。
拡散言語モデル(DLLM)は、ステップ毎に複数のマスク付きトークンを復元することで並列デコーディングを提供するが、実際には、最適化されたARエンジン(例えば、vLLM)よりも、この並列処理をデプロイメント速度に変換することができないことが多い。
主な理由は、多くのDLLMが双方向の注意に依存しており、標準的なプレフィックスKVキャッシングを破り、文脈の繰り返しを強制し、効率を損なうためである。
並列生成プレフィックスキャッシュを親しみやすいものにするために,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
中心となる考え方は、観測されたトークンを物理接頭辞に移動させるトポロジカル・リオーダリングによって達成された厳密な因果マスクを維持しながら、現在観察されている全てのトークンに対して、それぞれの位置条件をマスクすることである。
この特性に基づいて,信頼性の高いトークンを増大する左から右へのプレフィックスに連続的にコミットし,固定された並列処理を継続するストリーミング復号処理を導入し,ブロック拡散法に共通する停止・待機動作を回避する。
実験によると、WeDLMは強力なARバックボーンの品質を保ちながら、相当なスピードアップを実現し、挑戦的な推論ベンチマークに3倍、低エントロピー生成レジームに最大10倍近づいた。
関連論文リスト
- Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文 参考訳(メタデータ) (2026-03-05T18:25:26Z) - Divide and Conquer: Accelerating Diffusion-Based Large Language Models via Adaptive Parallel Decoding [6.755667885643806]
拡散に基づく大規模言語モデル(dLLM)は、様々な推論タスクで有望なパフォーマンスを示している。
適応型並列復号法であるDiCoを導入し,三相分割コンカレントパラダイムを特徴とする。
大規模な実験により、DiCoは競争力のある生成品質を維持しながら、大きな推論スピードアップを達成できることが示された。
論文 参考訳(メタデータ) (2026-02-27T08:36:06Z) - Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:36:04Z) - VidLaDA: Bidirectional Diffusion Large Language Models for Efficient Video Understanding [52.69880888587866]
現在のビデオ大言語モデル(ビデオLLM)は、典型的にはエンコーダビジョンを介してフレームを符号化し、自己回帰(AR)LLMを使用して理解と生成を行う。
本稿では,言語モデル(DLM)に基づく拡散ビデオLLMであるVidLaDAを提案する。
実験によると、VidLaDAは最先端のARベースラインと競合し、DLMベースラインを上回り、MARS-Cacheは精度を損なうことなく12倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-25T15:02:01Z) - HIPPO: Accelerating Video Large Language Models Inference via Holistic-aware Parallel Speculative Decoding [48.55833840968632]
投機的復号化は、出力品質を犠牲にすることなくLSM推論を加速するための有望なアプローチとして登場した。
提案するHIPPOは,汎用的な並列投機復号化フレームワークである。
6つのベンチマークで4つのビデオLLMの実験では、HIPPOの有効性が示され、最大3.51倍のスピードアップが達成された。
論文 参考訳(メタデータ) (2026-01-13T07:02:43Z) - Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models [8.407364705777587]
本稿では,DLLMに適した高速デコードアルゴリズムFree Draft-and-Verification(FreeDave)を紹介する。
FreeDaveは、パフォーマンスを低下させることなく、推論スループットを最大3.78倍に向上させることが証明されている。
論文 参考訳(メタデータ) (2025-09-30T21:28:04Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning [23.58934174168992]
Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
ハードセグメンテーションなしでデコードウインドウを狭める正規化法である畳み込み復号法(Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
論文 参考訳(メタデータ) (2025-09-18T17:48:21Z) - Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs [57.69190972274813]
Diffusion Large Language Models (DLLM) は、自動回帰モデルの魅力的な代替品として登場した。
既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。
本稿では,DLLMの復号化を可能にするトレーニング不要復号アルゴリズムであるWide-In, Narrow-Out (WINO)を紹介する。
論文 参考訳(メタデータ) (2025-07-24T16:51:33Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。