論文の概要: MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2508.13148v2
- Date: Thu, 25 Sep 2025 12:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:55.999822
- Title: MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models
- Title(参考訳): MDPO:masked Diffusion Language Modelのトレーニング推論ディバイドを克服する
- Authors: Haoyu He, Katrin Renz, Yong Cao, Andreas Geiger,
- Abstract要約: 拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
- 参考スコア(独自算出の注目度): 28.79185891706149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models, as a promising alternative to traditional autoregressive (AR) models, enable faster generation and richer conditioning on bidirectional context. However, they suffer from a key discrepancy between training and inference: during inference, MDLMs progressively reveal the structure of the generated sequence by producing fewer and fewer masked tokens, whereas this structure is ignored in training as tokens are masked at random. Although this discrepancy between training and inference can lead to suboptimal performance, it has been largely overlooked by previous works, leaving closing this gap between the two stages an open problem. To address this, we frame the problem of learning effective denoising trajectories as a sequential decision-making problem and use the resulting framework to apply reinforcement learning. We propose a novel Masked Diffusion Policy Optimization (MDPO) to exploit the Markov property diffusion possesses and explicitly train the model under the same progressive refining schedule used at inference. MDPO matches the performance of the previous state-of-the-art (SOTA) method with 60x fewer gradient updates, while achieving average improvements of 9.6% on MATH500 and 54.2% on Countdown over SOTA when trained within the same number of weight updates. Additionally, we improve the remasking strategy of MDLMs as a plug-in inference replacement to overcome the limitation that the model cannot refine tokens flexibly. This training-free method, termed Running Confidence Remasking (RCR), consistently enhances performance and provides further improvements when used with MDPO. Our findings establish great potential for investigating the discrepancy between pre-training and inference of MDLMs. Code: https://github.com/autonomousvision/mdpo. Project Page: https://cli212.github.io/MDPO/.
- Abstract(参考訳): 拡散言語モデルは、従来の自己回帰(AR)モデルに代わる有望な代替として、双方向コンテキストでのより高速な生成とリッチな条件付けを可能にする。
しかし、これらはトレーニングと推論の主な相違に悩まされる:推論中、MDLMは、マスク付きトークンを減らして生成シーケンスの構造を徐々に明らかにするが、トークンがランダムにマスクされているため、この構造はトレーニングでは無視される。
このトレーニングと推論の相違は、最適以下のパフォーマンスをもたらす可能性があるが、以前の研究ではほとんど見過ごされ、この2つのステージ間のギャップを埋めることがオープンな問題となっている。
そこで我々は,効果的に軌道を判断する問題を逐次的決定問題として認識し,その結果の枠組みを用いて強化学習を行う。
本稿では,マルコフ特性の拡散を利用したMDPO(Masked Diffusion Policy Optimization)を提案する。
MDPOは従来の最新式SOTA(State-of-the-art)法のパフォーマンスと60倍の勾配更新を達成し、MATH500では9.6%、SOTAでは54.2%の改善を達成した。
さらに,MDLMのリメイキング戦略をプラグイン推論の代替として改善し,モデルがフレキシブルにトークンを洗練できない限界を克服する。
RCR(Running Confidence Remasking)と呼ばれるこのトレーニングフリーな手法は、MDPOで使用する際のパフォーマンスを継続的に向上し、さらなる改善を提供する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
コード:https://github.com/autonomousvision/mdpo。
プロジェクトページ: https://cli212.github.io/MDPO/。
関連論文リスト
- Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Auto-Regressive Masked Diffusion Models [9.239507801466322]
仮面拡散モデル (MDM) は言語モデリングの有望なアプローチとして登場している。
自動回帰モデル(ARM)と比較してパフォーマンスのギャップがあり、より多くのトレーニングイテレーションが必要です。
本稿では,自己回帰型マスケッド拡散モデルを提案する。これは,自己回帰型モデルのトレーニング効率と,拡散型モデルの並列生成能力を統一するものである。
論文 参考訳(メタデータ) (2026-01-23T18:42:30Z) - Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model [74.99242687133408]
Masked Diffusion Models (MDMs) は、視覚、言語、モーダル・ジェネレーションにまたがる有望な可能性を示している。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
論文 参考訳(メタデータ) (2025-12-25T12:06:04Z) - Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed [76.49335677120031]
拡散言語モデル(dLM)は、並列で非自己回帰的な生成を可能にする有望なパラダイムとして登場した。
我々は,ARモデルのタスク精度を保ちながら,ARモデルからDLMへの変換を高速なDLMに変換することを検討した。
論文 参考訳(メタデータ) (2025-12-16T04:12:17Z) - MDiff4STR: Mask Diffusion Model for Scene Text Recognition [59.79818820650126]
Mask Diffusion Models (MDM) は、視覚言語タスクのための自動回帰モデル (ARM) に代わる有望な代替品として登場した。
我々は,認識効率は向上するが,バニラMDMがARMに遅れていることを示す。
シーンテキスト認識に適した2つの重要な改善戦略を備えたマスク拡散モデルMDiff4STRを提案する。
論文 参考訳(メタデータ) (2025-12-01T08:57:51Z) - Bringing Stability to Diffusion: Decomposing and Reducing Variance of Training Masked Diffusion Models [8.964977926797173]
マスク付き拡散モデル(MDMs)は自己回帰モデル(ARMs)に代わる有望な代替品である
高い分散は、よりノイズの多い勾配推定と不安定な最適化をもたらすため、同様に強い事前訓練されたMDMやARMもタスク固有の訓練後に分岐する。
A)マスキングパターンノイズ,(B)マスキングレートノイズ,(C)データノイズの3つの源にMDMトレーニングのばらつきを初めて分解した。
論文 参考訳(メタデータ) (2025-11-22T19:04:47Z) - Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step [28.12392773921128]
マスケッド拡散言語モデルは、並列復号化、フレキシブルな生成順序、推論ステップの少ないポテンシャルなどの特性を提供する。
直感的なアプローチは、自己回帰(AR)言語モデルのために確立された技術を直接MDLMに転送することである。
本稿では,EOS Early Rejection (EOSER) と Ascending Step-Size (ASS) デコードスケジューラを提案する。
論文 参考訳(メタデータ) (2025-09-28T15:01:15Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions [14.85882273040068]
仮面拡散モデル (MDMs) は、離散領域にまたがる生成的モデリングのための有望な代替手法として登場した。
適応推論は、事前訓練されたMDMの精度を7$%から90$%に向上させ、ARMを7times$のパラメータで上回ります。
論文 参考訳(メタデータ) (2025-02-10T18:47:21Z) - Enabling Autoregressive Models to Fill In Masked Tokens [50.9948753314669]
MARIA(Masked and Autoregressive Infilling Architecture)は、最先端のマスキング・インフィル・パフォーマンスを実現する新しいアプローチである。
MARIAは、トレーニング済みとARモデルを組み合わせて、隠れた状態を入力として取り込む線形デコーダをトレーニングする。
以上の結果から,MARIAはマスク入力タスクにおいて既存の手法,すなわち離散拡散モデルよりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-09T20:02:05Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。