論文の概要: Dependency-Aware Parallel Decoding via Attention for Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2603.12996v1
- Date: Fri, 13 Mar 2026 13:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.103227
- Title: Dependency-Aware Parallel Decoding via Attention for Diffusion LLMs
- Title(参考訳): 拡散LDMの注意による依存性を考慮した並列デコーディング
- Authors: Bumjun Kim, Dongjae Jeon, Moongyu Jeon, Albert No,
- Abstract要約: 拡散LDMの並列復号化は,各復号化ステップがトークン単位の周縁分布のみを提供するため困難である。
本稿では、自己アテンションを用いて条件依存グラフを誘導する簡易な訓練不要な復号法である依存性認識並列復号法(DAPD)を提案する。
- 参考スコア(独自算出の注目度): 8.800270601225668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel decoding for diffusion LLMs (dLLMs) is difficult because each denoising step provides only token-wise marginal distributions, while unmasking multiple tokens simultaneously requires accounting for inter-token dependencies. We propose Dependency-Aware Parallel Decoding (DAPD), a simple, training-free decoding method that uses self-attention to induce a conditional dependency graph over masked tokens. At each iteration, edges in this graph capture strong token interactions, while non-edges indicate weak dependence. Parallel decoding is then reduced to selecting an independent set on the graph and unmasking the selected tokens in parallel. This avoids co-updating strongly coupled tokens without auxiliary models or retraining. Experiments on LLaDA and Dream show that DAPD improves the accuracy-steps trade-off over existing methods and enables more globally distributed parallel updates that better exploit the any-order generation capability of dLLMs.
- Abstract(参考訳): 拡散LDM(dLLMs)の並列復号化は、各復号化ステップがトークン単位の辺り分布のみを提供するのに対して、複数のトークンを同時にアンマキングするには、トークン間の依存関係を考慮しなければならないため困難である。
本稿では、自己アテンションを用いてマスク付きトークン上の条件依存グラフを誘導する簡易な訓練不要な復号法である依存性認識並列復号法(DAPD)を提案する。
各イテレーションにおいて、このグラフのエッジは強いトークン相互作用を捉え、非エッジは弱い依存を示す。
並列復号化は、グラフ上の独立した集合を選択し、選択したトークンを並列に解凍する。
これにより、補助モデルや再トレーニングなしに、強く結合されたトークンの結合を避けることができる。
LLaDAとDreamの実験では、DAPDは既存のメソッドに対する精度-ステップのトレードオフを改善し、よりグローバルに分散した並列更新を可能にし、dLLMの任意の順序生成能力をうまく活用できることが示されている。
関連論文リスト
- DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention [2.7422645382944935]
そこで我々はDyLLMを提案する。DyLLMは正規トークンのみを選択的に計算することでデコーディングを高速化する学習自由推論フレームワークである。
DyLLMは様々な推論とコード生成ベンチマークで最大9.6倍のスループットを実現している。
論文 参考訳(メタデータ) (2026-03-09T07:02:01Z) - Divide and Conquer: Accelerating Diffusion-Based Large Language Models via Adaptive Parallel Decoding [6.755667885643806]
拡散に基づく大規模言語モデル(dLLM)は、様々な推論タスクで有望なパフォーマンスを示している。
適応型並列復号法であるDiCoを導入し,三相分割コンカレントパラダイムを特徴とする。
大規模な実験により、DiCoは競争力のある生成品質を維持しながら、大きな推論スピードアップを達成できることが示された。
論文 参考訳(メタデータ) (2026-02-27T08:36:06Z) - DAWN: Dependency-Aware Fast Inference for Diffusion LLMs [25.499655803741103]
拡散大言語モデル (dLLM) はテキスト生成の利点を示している。
既存の推論ソリューションは保守的な並列戦略を採用しており、かなりの効率性は未探索のままである。
本稿では,高速なdLLM推論のためのDAWNを提案する。
論文 参考訳(メタデータ) (2026-02-06T18:51:29Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。