論文の概要: On the Trainability of Masked Diffusion Language Models via Blockwise Locality
- arxiv url: http://arxiv.org/abs/2604.24832v1
- Date: Mon, 27 Apr 2026 17:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.526982
- Title: On the Trainability of Masked Diffusion Language Models via Blockwise Locality
- Title(参考訳): ブロックワイド局所性によるマスケ拡散言語モデルの訓練性について
- Authors: Yuxiang Wang, Yu Xiang, Baojian Zhou, Qifang Zhao, Keyue Jiang, Yanghua Xiao, Xiaoxiao Xu,
- Abstract要約: マスク付き拡散言語モデル (MDMs) は、最近、標準自己回帰型大言語モデル (AR-LLMs) に代わる有望な代替品として登場した。
ブロックワイズMDMを解析し,AR-LLMと比較し,構造生成の異なる側面を強調する3つの制御タスクについて検討した。
標準ランダムマスキングMDMは線形回帰を確実に学習できず、グラフパスフィニングにおいて高分散トレーニングダイナミクスを示し、スドクではAR-LLMよりも優れていた。
- 参考スコア(独自算出の注目度): 58.92209096047332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion language models (MDMs) have recently emerged as a promising alternative to standard autoregressive large language models (AR-LLMs), yet their optimization can be substantially less stable. We study blockwise MDMs and compare them with AR-LLMs on three controlled tasks that stress different aspects of structured generation: in-context linear regression, graph path-finding, and Sudoku solving. We find that standard random-masking MDMs fail to reliably learn linear regression, exhibit high variance training dynamics on graph path-finding, while outperforming AR-LLMs on Sudoku. To mitigate these instabilities, we propose two locality aware blockwise models, namely Jigsaw and Scatter, that inject left-to-right inductive bias by enforcing autoregressive locality within blocks while preserving iterative refinement at the block level. Empirically, Jigsaw matches AR-LLM stability on linear regression and remains strong on Sudoku, while Scatter retains diffusion's planning advantage on path-finding. Our results indicate that standard random-masking MDMs, even with blockwise variants, may be a suboptimal instantiation of diffusion LMs for ordered generation, motivating models beyond random masking.
- Abstract(参考訳): マスク付き拡散言語モデル (MDM) は、最近、標準自己回帰型大規模言語モデル (AR-LLM) に代わる有望な代替品として登場したが、その最適化は実質的には安定していない。
ブロックワイズMDMとAR-LLMを比較検討し、コンテキスト内線形回帰(in-context linear regression)、グラフパスフィニング( graph path-finding)、スドゥーク解法(Sudoku solve)という、構造化された生成の異なる側面を強調する3つの制御タスクについて比較した。
標準ランダムマスキングMDMは線形回帰を確実に学習できず、グラフパスフィニングにおいて高分散トレーニングダイナミクスを示し、スドクではAR-LLMよりも優れていた。
これらの不安定性を軽減するため,ブロックレベルで反復的改善を保ちながらブロック内に自己回帰的局所性を強制することにより,左から右への帰納的バイアスを注入する2つのブロックワイズモデル,Jigsaw と Scatter を提案する。
経験的に、Jigsawは線形回帰においてAR-LLMの安定性と一致し、Sudoku上では依然として強いが、Scatterはパスフィニングにおける拡散の計画的優位性を維持している。
本結果から, ブロックワイド変種であっても, 標準ランダムマスキングMDMは, 乱数マスキング以外のモデルに適応する, 順序生成のための拡散LMの準最適インスタンス化である可能性が示唆された。
関連論文リスト
- Discrete Tilt Matching [10.240234517598378]
マスク付き拡散大言語モデル(dLLM)は自己回帰生成の代替として有望である。
DLLMファインチューニングを局所的アンマスキング後部の状態レベルのマッチングとして再キャストするDTM(Disdisrete Tilt Matching)を導出する。
DTMは、MATH500とGSM8Kの競争力を維持しながら、スドクとカウントダウンで強い利益を得る。
論文 参考訳(メタデータ) (2026-04-20T18:43:37Z) - MAR-GRPO: Stabilized GRPO for AR-diffusion Hybrid Image Generation [24.618644100413018]
強化学習(RL)は自己回帰(AR)と拡散モデルにうまく応用されている。
RLをハイブリッドAR拡散フレームワークに拡張することは、インターリーブ推論とノイズの多いログ確率推定のために依然として難しい。
本研究では,マスク付き自己回帰モデル(MAR)について検討し,拡散ヘッドが運動学のトレーニングにおいて重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2026-04-08T11:30:35Z) - Unifying Masked Diffusion Models with Various Generation Orders and Beyond [56.70289720766803]
仮面拡散モデル(MDM)は、言語生成のための自己回帰モデル(ARM)の潜在的な代替品である。
広範な拡散生成過程のための秩序表現型マスク拡散モデル(OeMDM)を提案する。
生成順序と拡散バックボーンを共同で学習する学習順マスク拡散モデル(LoMDM)を導入する。
論文 参考訳(メタデータ) (2026-02-02T13:54:32Z) - Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - Remasking Discrete Diffusion Models with Inference-Time Scaling [21.362017006523086]
マスク付き拡散モデルに適用可能な手法であるリマスキー拡散モデル(ReMDM)を原則的に導入する。
最も興味深いことに、ReMDMは推論時間計算スケーリングの形で離散拡散を許容する。
論文 参考訳(メタデータ) (2025-03-01T02:37:51Z) - Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning [89.96284387376119]
拡散モデルが自己回帰的アプローチを損なう困難なサブゴールをどのように学習するかを示す。
本稿では,学習時の難易度に基づいてサブゴールを優先する多粒度拡散モデリング(MGDM)を提案する。
MGDMは検索手法を使わずに自己回帰モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-10-18T03:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。