論文の概要: MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2508.13148v1
- Date: Mon, 18 Aug 2025 17:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.52448
- Title: MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models
- Title(参考訳): MDPO:masked Diffusion Language Modelのトレーニング推論ディバイドを克服する
- Authors: Haoyu He, Katrin Renz, Yong Cao, Andreas Geiger,
- Abstract要約: 拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
- 参考スコア(独自算出の注目度): 32.21165055067441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models, as a promising alternative to traditional autoregressive (AR) models, enable faster generation and richer conditioning on bidirectional context. However, they suffer from a key discrepancy between training and inference: during inference, MDLMs progressively reveal the structure of the generated sequence by producing fewer and fewer masked tokens, whereas this structure is ignored in training as tokens are masked at random. Although this discrepancy between training and inference can lead to suboptimal performance, it has been largely overlooked by previous works, leaving closing this gap between the two stages an open problem. To address this, we frame the problem of learning effective denoising trajectories as a sequential decision-making problem and use the resulting framework to apply reinforcement learning. We propose a novel Masked Diffusion Policy Optimization (MDPO) to exploit the Markov property diffusion possesses and explicitly train the model under the same progressive refining schedule used at inference. MDPO matches the performance of the previous state-of-the-art (SOTA) method with 60x fewer gradient updates, while achieving average improvements of 9.6% on MATH500 and 54.2% on Countdown over SOTA when trained within the same number of weight updates. Additionally, we improve the remasking strategy of MDLMs as a plug-in inference replacement to overcome the limitation that the model cannot refine tokens flexibly. This simple yet effective training-free strategy, what we refer to as RCR, consistently improves performance and yields additional gains when combined with MDPO. Our findings establish great potential for investigating the discrepancy between pre-training and inference of MDLMs. Code: https://github.com/autonomousvision/mdpo. Project Page: https://cli212.github.io/MDPO/.
- Abstract(参考訳): 拡散言語モデルは、従来の自己回帰(AR)モデルに代わる有望な代替として、双方向コンテキストでのより高速な生成とリッチな条件付けを可能にする。
しかし、これらはトレーニングと推論の主な相違に悩まされる:推論中、MDLMは、マスク付きトークンを減らして生成シーケンスの構造を徐々に明らかにするが、トークンがランダムにマスクされているため、この構造はトレーニングでは無視される。
このトレーニングと推論の相違は、最適以下のパフォーマンスをもたらす可能性があるが、以前の研究ではほとんど見過ごされ、この2つのステージ間のギャップを埋めることがオープンな問題となっている。
そこで我々は,効果的に軌道を判断する問題を逐次的決定問題として認識し,その結果の枠組みを用いて強化学習を行う。
本稿では,マルコフ特性の拡散を利用したMDPO(Masked Diffusion Policy Optimization)を提案する。
MDPOは従来の最新式SOTA(State-of-the-art)法のパフォーマンスと60倍の勾配更新を達成し、MATH500では9.6%、SOTAでは54.2%の改善を達成した。
さらに,MDLMのリメイキング戦略をプラグイン推論の代替として改善し,モデルがフレキシブルにトークンを洗練できない限界を克服する。
RCRと呼ばれるこのシンプルで効果的なトレーニングフリー戦略は、パフォーマンスを継続的に改善し、MDPOと組み合わせることでさらに利益を得る。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
コード:https://github.com/autonomousvision/mdpo。
プロジェクトページ: https://cli212.github.io/MDPO/。
関連論文リスト
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions [14.85882273040068]
仮面拡散モデル (MDMs) は、離散領域にまたがる生成的モデリングのための有望な代替手法として登場した。
適応推論は、事前訓練されたMDMの精度を7$%から90$%に向上させ、ARMを7times$のパラメータで上回ります。
論文 参考訳(メタデータ) (2025-02-10T18:47:21Z) - Enabling Autoregressive Models to Fill In Masked Tokens [50.9948753314669]
MARIA(Masked and Autoregressive Infilling Architecture)は、最先端のマスキング・インフィル・パフォーマンスを実現する新しいアプローチである。
MARIAは、トレーニング済みとARモデルを組み合わせて、隠れた状態を入力として取り込む線形デコーダをトレーニングする。
以上の結果から,MARIAはマスク入力タスクにおいて既存の手法,すなわち離散拡散モデルよりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-09T20:02:05Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。