論文の概要: Why Diffusion Language Models Struggle with Truly Parallel (Non-Autoregressive) Decoding?
- arxiv url: http://arxiv.org/abs/2602.23225v1
- Date: Thu, 26 Feb 2026 17:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.801101
- Title: Why Diffusion Language Models Struggle with Truly Parallel (Non-Autoregressive) Decoding?
- Title(参考訳): なぜ拡散言語モデルが真に並列(非自己回帰的)デコードでゆがむのか?
- Authors: Pengxiang Li, Dilxat Muhtar, Lu Yin, Tianlong Chen, Shiwei Liu,
- Abstract要約: 拡散言語モデル(DLM)は、しばしばパラレルトークン生成を可能にするものとして宣伝されるが、実用的な高速DLMは左から右へ自動回帰(AR)のような復号力学に収束する。
我々は、ARライクなデコードの主要なドライバは、DLMの目的と、広く使われているトレーニングデータの高度に連続した構造とのミスマッチであると主張している。
この診断を契機に,非AR並列デコーディングと監視の整合性を向上する概念実証型データ中心型アプローチであるNAP(Non-Autoregressive Parallel DLMs)を提案する。
- 参考スコア(独自算出の注目度): 48.59679063480356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Language Models (DLMs) are often advertised as enabling parallel token generation, yet practical fast DLMs frequently converge to left-to-right, autoregressive (AR)-like decoding dynamics. In contrast, genuinely non-AR generation is promising because it removes AR's sequential bottleneck, better exploiting parallel hardware to reduce synchronization/communication overhead and improve latency scaling with output length. We argue that a primary driver of AR-like decoding is a mismatch between DLM objectives and the highly sequential structure of widely used training data, including standard pretraining corpora and long chain-of-thought (CoT) supervision. Motivated by this diagnosis, we propose NAP (Non-Autoregressive Parallel DLMs), a proof-of-concept, data-centric approach that better aligns supervision with non-AR parallel decoding. NAP curates examples as multiple independent reasoning trajectories and couples them with a parallel-forced decoding strategy that encourages multi-token parallel updates. Across math reasoning benchmarks, NAP yields stronger performance under parallel decoding than DLMs trained on standard long CoT data, with gains growing as parallelism increases. Our results suggest that revisiting data and supervision is a principled direction for mitigating AR-like behavior and moving toward genuinely non-autoregressive parallel generation in DLMs. Our code is available at https://github.com/pixeli99/NAP.
- Abstract(参考訳): 拡散言語モデル(DLM)は、しばしばパラレルトークン生成を可能にするものとして宣伝されるが、実用的な高速DLMは左から右へ自動回帰(AR)のような復号力学に収束することが多い。
対照的に、真の非AR生成はARのシーケンシャルなボトルネックを取り除き、並列ハードウェアを活用して同期/通信オーバーヘッドを減らし、出力長による遅延スケーリングを改善するため、有望である。
我々は、ARライクなデコーディングの原動力は、標準事前学習コーパスや長いチェーン・オブ・シント(CoT)監督を含む、広く使われているトレーニングデータの非常にシーケンシャルな構造とDLM目標とのミスマッチであると主張している。
この診断を契機に,非AR並列デコーディングと監視の整合性を向上する概念実証型データ中心型アプローチであるNAP(Non-Autoregressive Parallel DLMs)を提案する。
NAPは、複数の独立した推論トラジェクトリとして例をキュレートし、マルチトークンの並列更新を促進する並列強制復号戦略でそれらを結合する。
数学の推論ベンチマーク全体では、NAPは標準の長いCoTデータで訓練されたDLMよりも並列復号化時のパフォーマンスが向上し、並列性の増加とともに向上する。
以上の結果から,データの再検討と監視はAR的行動を緩和し,DLMにおける真の非自己回帰並列生成に向けての原則的方向であることが示唆された。
私たちのコードはhttps://github.com/pixeli99/NAP.comで利用可能です。
関連論文リスト
- Parallelism and Generation Order in Masked Diffusion Language Models: Limits Today, Potential Tomorrow [30.201913054064363]
Masked Diffusion Language Modelsは並列トークン生成と任意の順序復号を約束する。
並列性強度と生成順序の2次元に沿ってMDLMの挙動を特徴付ける。
我々は、知識、推論、プログラミングにまたがる58のベンチマークで8つのメインストリームMDLMを評価した。
論文 参考訳(メタデータ) (2026-01-22T02:39:36Z) - WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding [53.46134917935135]
Lookahead PArallel Decoding LoPAは、訓練不要のプラグイン・アンド・プレイアルゴリズムで、優れたToken Filling Order(TFO)を識別する。
LoPAは並列ブランチを通じて、異なる候補TFOを同時に探索し、ブランチの信頼性に基づいて、将来の並列性に対して最も高い可能性を持つものを選択する。
特に,LoPAはD2F-DreamのTPFをGSM8K上で10.1に向上させ,Dreamベースラインよりも優れた性能を維持した。
論文 参考訳(メタデータ) (2025-12-18T06:22:01Z) - Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion Large Language Models [54.81955614221652]
同時トークン更新を可能にする並列デコード。厳格な推論にしばしば必要とされる因果順序と競合する。
単純な推論タスクと複雑な推論タスクの両方において、DLLMは直接決定可能な出力に対してのみ真の並列性を示すことを示す。
そこで本研究では,PSCによる非効率性と非効率性を低減するために,いくつかの実用的な緩和,並列指向プロンプト,拡散早期停止,並列スケーリングを提案する。
論文 参考訳(メタデータ) (2025-10-10T16:58:14Z) - ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs [31.387806058620683]
拡散LDMは、並列復号による推論を劇的に加速する可能性への関心が高まっている。
既存の作業は、これらの固有の課題を概ね見落としており、標準ベンチマークによる評価は、並列復号による品質劣化を捉えるのに十分ではない。
そこで我々は,DLLMに特化して設計された最初のベンチマークであるParallelBenchを提案する。
我々の発見は、現在のスピード品質のトレードオフを克服できる革新的な復号法の必要性を強調している。
論文 参考訳(メタデータ) (2025-10-06T12:41:31Z) - Beyond Next-Token Prediction: A Performance Characterization of Diffusion versus Autoregressive Language Models [82.87985794856803]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを達成した。
最近、Diffusion Language Models (DLM) が有望な代替アーキテクチャとして登場した。
論文 参考訳(メタデータ) (2025-10-05T10:50:52Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs [57.69190972274813]
Diffusion Large Language Models (DLLM) は、自動回帰モデルの魅力的な代替品として登場した。
既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。
本稿では,DLLMの復号化を可能にするトレーニング不要復号アルゴリズムであるWide-In, Narrow-Out (WINO)を紹介する。
論文 参考訳(メタデータ) (2025-07-24T16:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。