論文の概要: Learn from Your Mistakes: Self-Correcting Masked Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.11590v1
- Date: Thu, 12 Feb 2026 05:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.652254
- Title: Learn from Your Mistakes: Self-Correcting Masked Diffusion Models
- Title(参考訳): 誤りから学ぶ:自己補正型マスケ拡散モデル
- Authors: Yair Schiff, Omer Belhasin, Roy Uziel, Guanghan Wang, Marianne Arriola, Gilad Turok, Michael Elad, Volodymyr Kuleshov,
- Abstract要約: マスク付き拡散モデル(MDM)は自己回帰モデルに代わる有望な代替品として登場している。
本研究では、モデルにアンマキングと修正の両方を行うよう訓練するフレームワークを提案する。
トレーニングとサンプリングの手法をProSeCo(Progressive Self-Correction)と名付けました。
- 参考スコア(独自算出の注目度): 31.536464269884103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion models (MDMs) have emerged as a promising alternative to autoregressive models, enabling parallel token generation while achieving competitive performance. Despite these advantages, MDMs face a fundamental limitation: once tokens are unmasked, they remain fixed, leading to error accumulation and ultimately degrading sample quality. We address this by proposing a framework that trains a model to perform both unmasking and correction. By reusing outputs from the MDM denoising network as inputs for corrector training, we train a model to recover from potential mistakes. During generation we apply additional corrective refinement steps between unmasking ones in order to change decoded tokens and improve outputs. We name our training and sampling method Progressive Self-Correction (ProSeCo) for its unique ability to iteratively refine an entire sequence, including already generated tokens. We conduct extensive experimental validation across multiple conditional and unconditional tasks, demonstrating that ProSeCo yields better quality-efficiency trade-offs (up to ~2-3x faster sampling) and enables inference-time compute scaling to further increase sample quality beyond standard MDMs (up to ~1.3x improvement on benchmarks).
- Abstract(参考訳): マスク付き拡散モデル(MDM)は自己回帰モデルに代わる有望な代替品として登場し、競合性能を達成しつつ並列トークン生成を実現している。
これらの利点にもかかわらず、MDMは基本的な制限に直面している。トークンが一度偽装されてしまえば、それらは固定され、エラーの蓄積と最終的にサンプルの品質の劣化につながる。
この問題に対処するために、モデルをアンマキングと修正の両方を実行するように訓練するフレームワークを提案する。
MDMデノベーションネットワークからの出力を補正学習の入力として再利用することにより、潜在的なミスから回復するようにモデルを訓練する。
生成中、デコードトークンを変更し、出力を改善するために、アンマキングトークン間で追加の補正ステップを適用します。
我々は、既に生成されたトークンを含む全シーケンスを反復的に洗練するユニークな能力により、トレーニングとサンプリングの方法であるProgressive Self-Correction(ProSeCo)を命名した。
我々は、複数の条件および非条件タスクに対して広範囲に実験的な検証を行い、ProSeCoがより良い品質効率のトレードオフ(最大2~3倍高速サンプリング)を得ることを示した。
関連論文リスト
- Training-Free Self-Correction for Multimodal Masked Diffusion Models [61.84305395626145]
本研究では,事前学習したマスク拡散モデルの帰納バイアスを利用した学習自由自己補正フレームワークを提案する。
本手法は,サンプリングステップを短縮したテキスト・画像生成およびマルチモーダル理解タスクにおける生成品質を著しく向上させる。
論文 参考訳(メタデータ) (2026-02-02T23:58:15Z) - Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Teach Diffusion Language Models to Learn from Their Own Mistakes [45.68746718883178]
Masked Diffusion Language Models (DLM) は、複数のトークンを並列に生成することで、大幅な速度を達成する。
並列サンプリングアプローチでは、強い依存性エラーが発生し、生成ステップのサイズが大きくなるにつれて品質が急速に低下する。
高品質なマルチトークン生成のためのデカップリング自己補正を提案する。
論文 参考訳(メタデータ) (2026-01-10T05:04:33Z) - Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - Fine-Tuning Masked Diffusion for Provable Self-Correction [28.338622227684453]
Masked Diffusion Models (MDMs) は離散空間における生成モデリングのための有望なアプローチとして登場した。
PRISM-Plug-in Remasking for Inference-time Self-correction of Masked Diffusions。
論文 参考訳(メタデータ) (2025-10-01T19:15:25Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Text Generation Beyond Discrete Token Sampling [74.06071135207635]
入力の混合(Mixture of Inputs, MoI)は、自動回帰生成のためのトレーニング不要な方法である。
MoIはQwQ-32B、Nemotron-Super-49B、Gemma-3-27B、DAPO-Qwen-32Bを含む複数のモデルのパフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-20T18:41:46Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。