論文の概要: Revise, Don't Freeze: Sampler-Matched Training for Self-Correcting Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2606.01026v1
- Date: Sun, 31 May 2026 05:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.086471
- Title: Revise, Don't Freeze: Sampler-Matched Training for Self-Correcting Masked Diffusion Language Models
- Title(参考訳): 修正, 凍結しない: 自己修正型マスケ拡散言語モデルのためのサンプリングマッチングトレーニング
- Authors: Longxuan Yu, Shaorong Zhang, Yu Fu, Hui Liu, Yue Dong, Greg Ver Steeg,
- Abstract要約: 仮面拡散言語モデルは、各認知段階における全ての位置を再予測する。
D3IMは、追加モジュールや補助パスを使わずに、直接可視・可視のリビジョンを可能にする。
SCOPE+D3IMは、GSM8Kで+13.0(68.3%)、MATH-500で+4.8(23.6%)、HumanEvalで+15.3(29.3%)、MBPPで+10.4(30.8%)でオリジナルのLLaDA-8Bよりも改善されている。
- 参考スコア(独自算出の注目度): 23.453999727125332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion language models (MDLMs) re-predict every position at each denoising step, but standard samplers commit tokens once revealed, leaving this revision capability unused. Existing approaches either add heuristic or learned mechanisms to revise committed tokens, or remask them back to [MASK] before re-predicting; a principled sampler that directly revises visible tokens without auxiliary modules remains underexplored. We introduce D3IM, a parameter-free sampler derived as a corrector-style reverse update that permits direct visible-to-visible revision without additional modules or auxiliary passes. D3IM also reveals a model-side obstacle we term preservation bias: the model tends to reproduce its own wrong committed tokens rather than correct them. We address this with SCOPE (Self-Conditioned On Prediction Errors), a lightweight post-training procedure that simulates D3IM's sampling process. On LLaDA-8B at 64 denoising steps, SCOPE+D3IM improves over the original LLaDA-8B with standard unmasking by +13.0 on GSM8K (68.3%), +4.8 on MATH-500 (23.6%), +15.3 on HumanEval (29.3%), and +10.4 on MBPP (30.8%), with gains that increase as more denoising steps are used on math and HumanEval.
- Abstract(参考訳): 仮面拡散言語モデル (MDLM) は各段階で全ての位置を再予測するが、標準サンプルはトークンをコミットし、このリビジョン機能は未使用のままである。
既存のアプローチでは、コミットトークンを修正するためのヒューリスティックまたは学習されたメカニズムを追加するか、または再予測する前に[MASK]に戻す。
D3IMは,モジュールの追加や補助パスを使わずに直接視認可能なリビジョンを可能にするリフレクタスタイルのリバースアップデートとして派生したパラメータフリーサンプリングである。
D3IMはまた、私たちが保存バイアスと呼ぶモデル側の障害を明らかにしている。
本稿では,D3IMのサンプリングプロセスのシミュレーションを行う軽量な後トレーニング手法であるSCOPE(Self-Conditioned On Prediction Errors)を用いてこの問題に対処する。
64段階のLLaDA-8Bでは、SCOPE+D3IMがオリジナルのLLaDA-8Bよりも改善され、GSM8K(68.3%)では+13.0、MATH-500(23.6%)では+4.8、HumanEval(29.3%)では+15.3、MBPP(30.8%)では+10.4、数学やHumanEvalでは+10.4が使われる。
関連論文リスト
- DSL-LLaDA: Scaling Continuous Denoising to 8B Masked Diffusion LMs [29.561307941602482]
マスク付きDLMは, 連続的な埋め込み空間の認知を支援するために, 軽量に適応可能であることを示す。
適応モデルは、埋め込み空間において全ての位置を共同で進化させる連続推論をサポートする。
DSL-LLaDA-SDEは4つのベンチマークで最高のROUGE-1を達成する。
論文 参考訳(メタデータ) (2026-05-31T05:27:01Z) - Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation [72.05592785529404]
UDMの標準プラグインブリッジパラメタライゼーションは,後側頭蓋に最適化されないことを示す。
また,UDM関節法をマスク拡散様サンプリング操作に分解して保存する均一拡散の吸収状態再構成も導入した。
論文 参考訳(メタデータ) (2026-05-21T17:27:19Z) - Roll Out and Roll Back: Diffusion LLMs are Their Own Efficiency Teachers [76.15132587294862]
Wide-In, Narrow-Out (WINO) は、リボッキング可能な並列生成を可能にするトレーニング不要の復号アルゴリズムである。
WINO+は、WINOが生成した検証された認知軌道をモデルパラメータに注入し、トレーニングを効率的な推論と整合させる。
LLaDAとMMaDAの実験では、WINOは品質と効率の両方を改善し、WINO+はこの進歩をさらに強化している。
論文 参考訳(メタデータ) (2026-05-16T11:27:40Z) - Learn from Your Mistakes: Self-Correcting Masked Diffusion Models [31.536464269884103]
マスク付き拡散モデル(MDM)は自己回帰モデルに代わる有望な代替品として登場している。
本研究では、モデルにアンマキングと修正の両方を行うよう訓練するフレームワークを提案する。
トレーニングとサンプリングの手法をProSeCo(Progressive Self-Correction)と名付けました。
論文 参考訳(メタデータ) (2026-02-12T05:17:31Z) - Embedding Inversion via Conditional Masked Diffusion Language Models [5.943245848892104]
条件付きマスク拡散としてインバージョンを組込み、逐次自己回帰生成ではなく反復的復調により全てのトークンを並列に回収する。
マスク付き拡散言語モデルは、適応層正規化を介してターゲット埋め込みに条件付けされ、推論時にターゲットエンコーダにアクセスせずに8つのフォワードパスしか必要としない。
3つの埋め込みモデルにまたがる32トークンシーケンスにおいて、エンコーダアクセス、反復補正、アーキテクチャ固有のアライメントを必要とせず、並列化によるトークン回復を実現する。
論文 参考訳(メタデータ) (2026-02-11T17:17:13Z) - EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - Diffusion Language Models are Super Data Learners [61.721441061210896]
ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。
本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
論文 参考訳(メタデータ) (2025-11-05T08:17:42Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。