論文の概要: Mask Is What DLLM Needs: A Masked Data Training Paradigm for Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2603.15803v1
- Date: Mon, 16 Mar 2026 18:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.945188
- Title: Mask Is What DLLM Needs: A Masked Data Training Paradigm for Diffusion LLMs
- Title(参考訳): DLLMが必要とするMask - 拡散LDMのためのMasked Data Training Paradigm
- Authors: Linrui Ma, Yufei Cui, Kai Han, Yunhe Wang,
- Abstract要約: ランダムノイズスケジューラは、現実世界のシーケンスに固有の、高度に一様でない情報密度を見落としている。
情報密度ハブを抽出し,補完的優先性マスキングを適用することにより,1つのトレーニングインスタンスを分離し,推論と構文サンプルを相互に強化する。
実験では、4つのCodeとMath推論ベンチマークで平均精度が4%向上した。
- 参考スコア(独自算出の注目度): 26.45111031153368
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Discrete diffusion models offer global context awareness and flexible parallel generation. However, uniform random noise schedulers in standard DLLM training overlook the highly non-uniform information density inherent in real-world sequences. This wastes optimization resources on low-density structural glues while leaving high-density logical pivot points severely under-optimized. To address this, we propose an Information Density Driven Smart Noise Scheduler. By extracting information-dense hubs and applying Complementary Priority Masking, our method decouples a single training instance into mutually reinforcing reasoning and syntax samples, forcing the model to master both logical deduction and foundational sequence structure. Experiments demonstrate that our approach improves average accuracy by ~4\% across four Code and Math reasoning benchmarks, significantly outperforming uniform baselines. Mechanistic analyses further reveal that probabilistic priority masking effectively mitigates contextual collapse during block diffusion training. Overall, this density-aware strategy efficiently unlocks the reasoning potential of diffusion language models at minimal annotation cost, emerging as a promising new masked data training paradigm for Diffusion LLMs. Our processed dataset can be found at https://huggingface.co/datasets/malr07/opc-sft-stage2-dense-extracted.
- Abstract(参考訳): 離散拡散モデルは、グローバルコンテキスト認識とフレキシブル並列生成を提供する。
しかし、標準DLLMトレーニングにおける一様ランダムノイズスケジューラは、実世界のシーケンスに固有の、高度に一様でない情報密度を見落としている。
これにより、高密度の論理的ピボット点を極端に過度に最適化しながら、低密度構造接着剤の最適化資源を無駄にする。
そこで我々は,情報密度駆動型スマートノイズスケジューリング器を提案する。
本手法は,情報密度ハブを抽出し,補完優先マスキングを適用することにより,単一トレーニングインスタンスを相互に推論と構文サンプルを分離し,論理的推論と基礎的シーケンス構造の両方を習得させる。
実験により,4つのCodeおよびMath推論ベンチマークで平均精度を約4\%向上し,一様ベースラインを著しく上回った。
さらに,確率論的優先マスキングはブロック拡散訓練時の文脈崩壊を効果的に緩和することを示した。
全体として、この密度認識戦略は、拡散言語モデルの推論可能性を最小限のアノテーションコストで効果的に解き、拡散LLMのための有望な新しいマスク付きデータトレーニングパラダイムとして出現する。
処理されたデータセットはhttps://huggingface.co/datasets/malr07/opc-sft-stage2-dense-extracted.comで確認できます。
関連論文リスト
- Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Federated Learning With L0 Constraint Via Probabilistic Gates For Sparsity [0.0]
LearningNIST(FL)は、複数のクライアントがデータのプライバシを維持しながらモデルのトレーニングに協力する必要がある分散機械学習設定である。
データとモデルの本質的にの疎さは、過度に密集したモデルと、データとクライアントの参加の下での一般化性の低下をもたらすことが多い。
非ゼロパラメータの密度に対するL0制約付きFLを提案し、確率ゲートを用いた革命と連続緩和により達成する。
論文 参考訳(メタデータ) (2025-12-28T20:33:22Z) - dUltra: Ultra-Fast Diffusion Language Models via Reinforcement Learning [36.12942468805232]
マスク付き拡散言語モデルは並列トークン生成の可能性を秘めている。
オープンソースのMDLMは、モデルフォワードパス毎に5トークン未満をデコードする。
dUltraは効率的な並列デコーディングのためのアンマスク戦略を学ぶ。
論文 参考訳(メタデータ) (2025-12-24T23:31:48Z) - Scaling Behavior of Discrete Diffusion Language Models [74.72926629897636]
離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。
実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。
均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
論文 参考訳(メタデータ) (2025-12-11T17:54:10Z) - Score-based Membership Inference on Diffusion Models [3.742113529511043]
拡散モデルに対するメンバーシップ推論攻撃(MIA)は、プライバシーの懸念が強まっている。
本稿では,拡散モデルが近似することを学習する予測ノイズベクトルに着目し,スコアベースMIAの理論的,実証的研究を行う。
提案手法は, トレーニングセットに近づき, メンバシップが明らかになるような, 近隣のトレーニングサンプルのカーネル重み付き局所平均に対して, 期待されたデノイザ出力が向けられることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:28:55Z) - Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models [31.589548159881932]
本稿では,拡散言語モデルの推論フレームワークであるDCoLT(Diffusion Chain of Lateral Thought)を紹介する。
DCoLTは、思考の中間段階において文法的正しさに厳格な規則を持たず、双方向で非線形な推論を可能にする。
DCoLT強化拡散言語モデル(DLM)は、SFTやRLで訓練された他のDLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-15T16:06:32Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Masked Language Modeling Becomes Conditional Density Estimation for Tabular Data Synthesis [0.74454067778951]
Masked Modeling (MLM) の連続的多クラス分類タスクをヒストグラムに基づく条件密度推定として再定義し,MaCoDEを提案する。
目的変数と条件変数の任意の組み合わせで条件密度を推定できる。
提案モデルの有効性を検証するため,10個の実世界のデータセットにまたがる合成データ生成の性能を評価する。
論文 参考訳(メタデータ) (2024-05-31T03:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。