論文の概要: From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2512.06776v1
- Date: Sun, 07 Dec 2025 10:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.520058
- Title: From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs
- Title(参考訳): 次点から次点へ:拡散LDMの原理的適応経路
- Authors: Yuchuan Tian, Yuchen Liang, Jiacheng Sun, Shuo Zhang, Guangwen Yang, Yingte Shu, Sibo Fang, Tianyu Guo, Kai Han, Chao Xu, Hanting Chen, Xinghao Chen, Yunhe Wang,
- Abstract要約: 原理的AR-to-block-diffusion適応は,DLMをスクラッチからトレーニングする上で,有効かつ効率的な代替手段であることを示す。
NBDiff-7B(BaseとInstruct)は、長文のモデリングと推論機能を継承し、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 58.640039233470766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel at generation but dominant autoregressive (AR) decoding is inherently sequential, creating a throughput bottleneck. Diffusion Language Models (DLMs)--especially block-wise variants--enable parallel generation and intra-block bidirectional reasoning, yet training large DLMs from scratch is costly and wastes the knowledge in mature AR checkpoints. Prior "adaptation" attempts either modify logits or randomly grow attention masks to full-sequence diffusion, or simply transplant AR weights into a block-diffusion recipe, leaving a fundamental mismatch between AR causality and block-wise bidirectionality unaddressed. We reframe adaptation as a intra-paradigm path from AR to Block-Diffusion by viewing AR as Block-Diffusion with blocksize=1. Concretely, we design the pathway of adaptation as follows: we use a context-causal attention mask (causal in context, bidirectional only within the active block), an efficient parallel adaptation procedure, an auxiliary AR loss to maximize data utilization and retain pretrained knowledge, and gradual increment of the generation block size. The recipe integrates cleanly with masked block-diffusion and maintains train-inference consistency. Built on these components, NBDiff-7B (Base and Instruct) could inherit the long-context modeling and reasoning capabilities, and achieve state-of-the-art performance among the 7B-class DLMs, delivering strong gains on general-knowledge, math, and code benchmarks over strong baselines. These results demonstrate that principled AR-to-block-diffusion adaptation is an effective and compute-efficient alternative to training DLMs from scratch. Codes: https://github.com/YuchuanTian/NBDiff.
- Abstract(参考訳): 大規模言語モデル(LLM)は世代ごとに優れているが、支配的な自己回帰(AR)デコーディングは本質的にシーケンシャルであり、スループットのボトルネックを生み出している。
Diffusion Language Models (DLMs) - 特にブロックワイズ変種 - 並列生成とブロック内双方向推論が可能だが、大きなDLMをスクラッチからトレーニングするのはコストがかかり、熟成したARチェックポイントでの知識を無駄にする。
以前の"適応"の試みは、ロジットを変更するか、フルシーケンス拡散にランダムに注意マスクを成長させるか、あるいはAR重み付けをブロック拡散レシピに移植するだけで、AR因果性とブロックワイドの双方向性の間に基本的なミスマッチを残している。
ブロック化=1でARをブロック拡散と見なして,ARからブロック拡散へのパラダイム内経路としての再編成を行った。
具体的には、コンテキスト・因果的注意マスク(文脈上、アクティブブロック内のみ双方向)、効率的な並列適応プロシージャ、データ利用の最大化と事前訓練された知識の維持のための補助AR損失、生成ブロックサイズの漸進的な増加といった適応の経路を設計する。
このレシピはマスク付きブロック拡散ときれいに統合され、列車の干渉一貫性を維持する。
これらのコンポーネント上に構築されたNBDiff-7B(BaseとInstruct)は、長いコンテキストのモデリングと推論機能を継承し、7BクラスのDLMの中で最先端のパフォーマンスを実現し、一般的な知識、数学、コードベンチマークを強力なベースライン上で実現した。
これらの結果から,AR-to-block-diffusion適応はDLMをスクラッチからトレーニングする上で,有効かつ効率的な代替手段であることが示された。
コード:https://github.com/YuchuanTian/NBDiff.com
関連論文リスト
- SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation [62.14510717860079]
本稿では, 自己回帰モデルの学習効率を, 拡散の並列推論能力で統一するSynergistic Diffusion-Autoregressionパラダイムを提案する。
SDARは、十分に訓練された自己回帰モデル(AR)を、簡潔でデータ効率のよい適応を通じてブロックワイズ拡散モデルに変換する、軽量なパラダイム変換を実行する。
この知見に基づいて、SDARは最小コストで効率的なAR-拡散変換を実現し、並列生成を可能にしながら、ARレベルのパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-07T17:29:28Z) - AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size [7.442463267121892]
拡散に基づく大規模言語モデル (dLLM) は並列デコードに固有の能力で注目を集めている。
本稿では,セミARデコードにおける固定ブロックサイズの仮定に挑戦する最初の体系的な研究を提案する。
AdaBlock-dLLMは,実行中のブロックサイズを調整することで,ブロック境界とセマンティックステップを適応的に調整する,トレーニング不要のプラグイン・アンド・プレイスケジューラである。
論文 参考訳(メタデータ) (2025-09-30T15:53:56Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step [28.12392773921128]
マスケッド拡散言語モデルは、並列復号化、フレキシブルな生成順序、推論ステップの少ないポテンシャルなどの特性を提供する。
直感的なアプローチは、自己回帰(AR)言語モデルのために確立された技術を直接MDLMに転送することである。
本稿では,EOS Early Rejection (EOSER) と Ascending Step-Size (ASS) デコードスケジューラを提案する。
論文 参考訳(メタデータ) (2025-09-28T15:01:15Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation [11.910667302899638]
DiffusionBlocksは、トランスフォーマーベースのネットワークを独立したトレーニング可能なブロックに変換するための、原則化されたフレームワークである。
本実験は,DiffusionBlocksトレーニングがエンドツーエンドトレーニングの性能に合致することを示すものである。
論文 参考訳(メタデータ) (2025-06-17T05:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。