論文の概要: Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2604.02560v1
- Date: Thu, 02 Apr 2026 22:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.234419
- Title: Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models
- Title(参考訳): 離散拡散言語モデルにおける依存型並列デコード
- Authors: Liran Ringel, Ameen Ali, Yaniv Romano,
- Abstract要約: 我々は,dLLMの最終隠れ状態にアタッチする軽量依存予測器DEMASKを提案する。
実証的に、DEMASKはDream-7Bで1.7-2.2$times$ Speedupを達成し、信頼性ベースのベースラインやKLベースのベースラインと比較して精度が向上した。
- 参考スコア(独自算出の注目度): 21.699371484195865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete diffusion language models (dLLMs) accelerate text generation by unmasking multiple tokens in parallel. However, parallel decoding introduces a distributional mismatch: it approximates the joint conditional using a fully factorized product of per-token marginals, which degrades output quality when selected tokens are strongly dependent. We propose DEMASK (DEpendency-guided unMASKing), a lightweight dependency predictor that attaches to the final hidden states of a dLLM. In a single forward pass, it estimates pairwise conditional influences between masked positions. Using these predictions, a greedy selection algorithm identifies positions with bounded cumulative dependency for simultaneous unmasking. Under a sub-additivity assumption, we prove this bounds the total variation distance between our parallel sampling and the model's joint. Empirically, DEMASK achieves 1.7-2.2$\times$ speedup on Dream-7B while matching or improving accuracy compared to confidence-based and KL-based baselines.
- Abstract(参考訳): 離散拡散言語モデル(dLLM)は、複数のトークンを並列にアンマキングすることでテキスト生成を加速する。
しかし、並列デコーディングは分布的ミスマッチを導入し、選択されたトークンが強く依存するときに出力品質を低下させる、トーケン辺辺の完全分解積を用いて結合条件を近似する。
我々は,dLLMの最終的な隠れ状態にアタッチする軽量依存予測器であるDEMASK(Dependency-guided unMASKing)を提案する。
シングルフォワードパスでは、マスクされた位置間のペアワイズ条件の影響を推定する。
これらの予測を用いて、グレディ選択アルゴリズムは、同時アンマキングのための有界累積依存性のある位置を特定する。
サブ付加性仮定の下では、これは並列サンプリングとモデルの関節の間の全変動距離を束縛する。
DEMASKは1.7-2.2$\times$ SpeedupをDream-7Bで達成し、信頼性ベースのベースラインやKLベースのベースラインと比較して精度が向上した。
関連論文リスト
- Dependency-Aware Parallel Decoding via Attention for Diffusion LLMs [8.800270601225668]
拡散LDMの並列復号化は,各復号化ステップがトークン単位の周縁分布のみを提供するため困難である。
本稿では、自己アテンションを用いて条件依存グラフを誘導する簡易な訓練不要な復号法である依存性認識並列復号法(DAPD)を提案する。
論文 参考訳(メタデータ) (2026-03-13T13:52:02Z) - Locally Coherent Parallel Decoding in Diffusion Language Models [6.620088179445404]
拡散言語モデル(DLM)は、線形生成遅延と双方向機能を提供する。
標準DLMは条件付き境界分布とは独立してトークンをサンプリングする。
並列サンプリングを局所的依存モデルと照合する手法であるCoDiLAを紹介する。
論文 参考訳(メタデータ) (2026-03-03T09:56:53Z) - Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference [58.189320101488725]
DLLMは高速な非自己回帰推論を約束するが、並列デコーディングにおいて厳しい品質と速度のトレードオフを被る。
我々は、連続表現を離散デコードプロセスに統合することでこの問題に対処する。
本稿では,初期マスキング状態と最終復号化トークン状態の中間として,新しい連続混合状態を導入するフレームワークであるReMixを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:08:11Z) - Adaptation to Intrinsic Dependence in Diffusion Language Models [5.185131234265025]
拡散言語モデル(DLM)は自己回帰(AR)アプローチに代わる有望な代替手段として登場した。
対象データ分布の(未知の)依存構造に適応するDLMの分布に依存しないアンマスキングスケジュールを提案する。
この結果は, 先行収束理論を著しく改善し, 低複雑さ分布に対する相当なサンプリング加速を得た。
論文 参考訳(メタデータ) (2026-02-23T18:41:34Z) - DAWN: Dependency-Aware Fast Inference for Diffusion LLMs [25.499655803741103]
拡散大言語モデル (dLLM) はテキスト生成の利点を示している。
既存の推論ソリューションは保守的な並列戦略を採用しており、かなりの効率性は未探索のままである。
本稿では,高速なdLLM推論のためのDAWNを提案する。
論文 参考訳(メタデータ) (2026-02-06T18:51:29Z) - Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Parallel Sampling from Masked Diffusion Models via Conditional Independence Testing [4.707859580472452]
仮面拡散モデル(MDM)は、離散テキスト生成のための自己回帰モデル(ARM)に代わる魅力的な代替手段を提供する。
シーケンシャルな左から右への生成ではなく、並列トークンサンプリングを可能にする。
本稿では,このトレードオフを再現するモデル非依存のサンプル装置PUNTを紹介する。
論文 参考訳(メタデータ) (2025-10-24T18:41:26Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。