論文の概要: Tuning the Implicit Regularizer of Masked Diffusion Language Models: Enhancing Generalization via Insights from $k$-Parity
- arxiv url: http://arxiv.org/abs/2601.22450v1
- Date: Fri, 30 Jan 2026 01:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.153829
- Title: Tuning the Implicit Regularizer of Masked Diffusion Language Models: Enhancing Generalization via Insights from $k$-Parity
- Title(参考訳): Masked Diffusion Language Modelの意図しない正規化のチューニング:$k$-Parityのインサイトによる一般化の促進
- Authors: Jianhao Huang, Baharan Mirzasoleiman,
- Abstract要約: Masked Diffusion Language Modelsは、最近強力な生成パラダイムとして登場した。
本研究では、これらの性質を$k$-parity問題の設定内で検討する。
MD目標を$k$-parity問題に適用してナノGPTをトレーニングすることにより,MD目標が学習環境を根本的に変えることを示す。
- 参考スコア(独自算出の注目度): 29.467658072159114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Diffusion Language Models have recently emerged as a powerful generative paradigm, yet their generalization properties remain understudied compared to their auto-regressive counterparts. In this work, we investigate these properties within the setting of the $k$-parity problem (computing the XOR sum of $k$ relevant bits), where neural networks typically exhibit grokking -- a prolonged plateau of chance-level performance followed by sudden generalization. We theoretically decompose the Masked Diffusion (MD) objective into a Signal regime which drives feature learning, and a Noise regime which serves as an implicit regularizer. By training nanoGPT using MD objective on the $k$-parity problem, we demonstrate that MD objective fundamentally alters the learning landscape, enabling rapid and simultaneous generalization without experiencing grokking. Furthermore, we leverage our theoretical insights to optimize the distribution of the mask probability in the MD objective. Our method significantly improves perplexity for 50M-parameter models and achieves superior results across both pre-training from scratch and supervised fine-tuning. Specifically, we observe performance gains peaking at $8.8\%$ and $5.8\%$, respectively, on 8B-parameter models, confirming the scalability and effectiveness of our framework in large-scale masked diffusion language model regimes.
- Abstract(参考訳): Masked Diffusion Language Modelsは、最近、強力な生成パラダイムとして登場したが、その一般化特性は、自己回帰的モデルと比べてまだ検討されていない。
本研究では、これらの特性を、通常、ニューラルネットワークが、確率レベルのパフォーマンスの長い台地、そして突然の一般化を示す、$k$-parity問題(XOR総和$k$関連ビットを計算)の設定内で調べる。
理論的には,Masked Diffusion(MD)の目的を特徴学習を駆動する信号系と暗黙の正規化器として機能する雑音系に分解する。
MD目標を$k$-parity問題に基づいてナノGPTをトレーニングすることにより,MD目標が学習環境を根本的に変化させ,学習体験を伴わずに迅速かつ同時的な一般化を可能にすることを示す。
さらに,MD目標におけるマスク確率分布の最適化に理論的知見を活用する。
提案手法は,50Mパラメータモデルのパープレキシティを著しく向上し,スクラッチと教師付き微調整の両方から事前学習において優れた結果が得られる。
具体的には,大規模マスマスキング拡散言語モデルシステムにおけるフレームワークのスケーラビリティと有効性を確認し,それぞれ8Bパラメータモデルで8.8\%と5.8\%とピーク時の性能向上を観察する。
関連論文リスト
- Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization [0.0]
画像分類設定におけるMoEの挙動について検討し、予測性能、専門家の活用、一般化に着目した。
我々は、CIFAR10データセット上の密度、SoftMoE、SparseMoE分類器を、同等のモデルキャパシティで比較する。
どちらのMoE変種も、正規化によるバランスの取れた専門家の利用を維持しながら、密度の高いベースラインよりもわずかに高い検証精度を達成する。
DenseとSparseMoEは、全てのモデルが同等の一般化性能を達成しているにもかかわらず、同様の曲率状態にあるのに対して、SoftMoEはこれらの指標によってよりシャープさを示す。
論文 参考訳(メタデータ) (2026-01-21T14:22:25Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Unveiling the Potential of Diffusion Large Language Model in Controllable Generation [36.05635830551406]
最先端の自己回帰型大規模言語モデル(LLM)でさえ、構造化された出力を生成するために必要な場合、信頼性が低い。
現在の拡散型大規模言語モデル(dLLM)に触発されて、アーキテクチャ上の違いが次世代の制御可能生成をアンロックする鍵であることに気付いた。
本稿では,dLLMが安定して構造化された出力を生成できる新しいフレームワークであるSelf-Adaptive Scaffoldingを提案する。
論文 参考訳(メタデータ) (2025-07-06T18:41:34Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。