論文の概要: Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed
- arxiv url: http://arxiv.org/abs/2512.14067v1
- Date: Tue, 16 Dec 2025 04:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.581306
- Title: Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed
- Title(参考訳): 効率的なDLM:自己回帰から拡散言語モデルへ、そしてスピードを超えて
- Authors: Yonggan Fu, Lexington Whalen, Zhifan Ye, Xin Dong, Shizhe Diao, Jingyu Liu, Chengyue Wu, Hao Zhang, Enze Xie, Song Han, Maksim Khadkevich, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov,
- Abstract要約: 拡散言語モデル(dLM)は、並列で非自己回帰的な生成を可能にする有望なパラダイムとして登場した。
我々は,ARモデルのタスク精度を保ちながら,ARモデルからDLMへの変換を高速なDLMに変換することを検討した。
- 参考スコア(独自算出の注目度): 76.49335677120031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.
- Abstract(参考訳): 拡散言語モデル(dLM)は、並列で非自己回帰生成を可能にする有望なパラダイムとして登場したが、その学習効率は、スクラッチからトレーニングした場合の自己回帰(AR)言語モデルよりも遅れている。
そこで本研究では,ARモデルのタスク精度を保ちながら,より高速なDLMに変換するAR-to-dLM変換について検討する。
我々は、既存のAR-to-dLM手法の注意パターンや目的の制約を特定し、より効果的なAR-to-dLM変換のための原則と方法論を提案する。
具体的には、まず、異なる注意パターンを体系的に比較し、トレーニング済みのAR重量分布の維持が効果的なAR-to-dLM変換に重要であることを明らかにする。
そこで,ブロック単位の注意パターンを持つ連続事前学習方式を導入し,ブロック間の因果関係を保ちながら,ブロックごとの双方向モデリングを可能にする。
このアプローチは、KVキャッシングを可能にすることで知られている利点に加えて、完全な双方向モデリングよりもトレーニング済みのARモデルの重量分布を保存し、精度と効率において勝利をもたらすことができる。
第二に、マスクトークン分布のトレーニングとテストのギャップを軽減するために、テスト時の動作をより良く模倣するために、トレーニング中の後のトークンにより高いマスキング確率を割り当てる位置依存型トークンマスキング戦略を提案する。
このフレームワークを活用することで、我々は、dLMの注意パターン、トレーニングダイナミクス、その他の設計選択に関する広範な研究を行い、スケーラブルなAR-to-dLM変換に関する実用的な洞察を提供する。
これらの研究により、Dream 7B や Qwen3 4B よりも高いスループットで5.4%/+2.7% の精度を実現した。
関連論文リスト
- From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs [58.640039233470766]
原理的AR-to-block-diffusion適応は,DLMをスクラッチからトレーニングする上で,有効かつ効率的な代替手段であることを示す。
NBDiff-7B(BaseとInstruct)は、長文のモデリングと推論機能を継承し、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-07T10:28:21Z) - How Efficient Are Diffusion Language Models? A Critical Examination of Efficiency Evaluation Practices [81.85465545346266]
拡散言語モデル(DLM)は、長期支配的自己回帰(AR)パラダイムに代わる有望な代替として登場した。
しかし、現在のオープンソースのDLMは、しばしばARの速度よりも優れており、現実のユーティリティを制限している。
本研究はDLMの効率に関する系統的研究であり, 先行評価手法の問題点を同定する。
論文 参考訳(メタデータ) (2025-10-21T10:00:32Z) - Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step [28.12392773921128]
マスケッド拡散言語モデルは、並列復号化、フレキシブルな生成順序、推論ステップの少ないポテンシャルなどの特性を提供する。
直感的なアプローチは、自己回帰(AR)言語モデルのために確立された技術を直接MDLMに転送することである。
本稿では,EOS Early Rejection (EOSER) と Ascending Step-Size (ASS) デコードスケジューラを提案する。
論文 参考訳(メタデータ) (2025-09-28T15:01:15Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - Anchored Diffusion Language Model [39.17770765212062]
本稿では,アンカーネットワークを介して重要なトークン上の分布を予測する新しいフレームワークであるAnchored Diffusion Language Model (ADLM)を紹介する。
ADLMはLM1BとOpenWebTextでテストの難易度を大幅に改善し、以前のDLMよりも25.4%向上した。
また、MAUVEスコアでARモデルを上回っており、DLMがARモデルよりも優れた人間的なテキストを生成するのはこれが初めてである。
論文 参考訳(メタデータ) (2025-05-24T01:34:14Z) - Enabling Autoregressive Models to Fill In Masked Tokens [50.9948753314669]
MARIA(Masked and Autoregressive Infilling Architecture)は、最先端のマスキング・インフィル・パフォーマンスを実現する新しいアプローチである。
MARIAは、トレーニング済みとARモデルを組み合わせて、隠れた状態を入力として取り込む線形デコーダをトレーニングする。
以上の結果から,MARIAはマスク入力タスクにおいて既存の手法,すなわち離散拡散モデルよりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-09T20:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。