論文の概要: Improving Discrete Diffusion Unmasking Policies Beyond Explicit Reference Policies
- arxiv url: http://arxiv.org/abs/2510.05725v1
- Date: Tue, 07 Oct 2025 09:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.187302
- Title: Improving Discrete Diffusion Unmasking Policies Beyond Explicit Reference Policies
- Title(参考訳): 明示的基準法を超えた離散拡散解法の改善
- Authors: Chunsan Hong, Seonho An, Min-Soo Kim, Jong Chul Ye,
- Abstract要約: 我々は,KL規則化マルコフ決定プロセス (MDP) として明示的な基準ポリシを付与し,正規化目標を最適化した。
このフレームワークの下で最適化されたポリシーは、スケジュールよりもデータ分布とより密に一致したサンプルを生成することを証明している。
- 参考スコア(独自算出の注目度): 47.6755955972232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion models (MDMs) have recently emerged as a novel framework for language modeling. MDMs generate sentences by iteratively denoising masked sequences, filling in [MASK] tokens step by step. Although MDMs support any-order sampling, performance is highly sensitive to the choice of which position to unmask next. Prior work typically relies on rule-based schedules (e.g., max-confidence, max-margin), which provide ad hoc improvements. In contrast, we replace these heuristics with a learned scheduler. Specifically, we cast denoising as a KL-regularized Markov decision process (MDP) with an explicit reference policy and optimize a regularized objective that admits policy improvement and convergence guarantees under standard assumptions. We prove that the optimized policy under this framework generates samples that more closely match the data distribution than heuristic schedules. Empirically, across four benchmarks, our learned policy consistently outperforms max-confidence: for example, on SUDOKU, where unmasking order is critical, it yields a 20.1% gain over random and a 11.2% gain over max-confidence.
- Abstract(参考訳): 仮面拡散モデル(MDM)は近年,言語モデリングの新しいフレームワークとして登場した。
MDMは、[MASK]トークンを段階的に埋め込んだマスキングシーケンスを反復的にデノベートすることで文を生成する。
MDMは任意の順序のサンプリングをサポートするが、次にマスクを解除する位置の選択には非常に敏感である。
従来の作業は通常、アドホックな改善を提供するルールベースのスケジュール(例えば、max-confidence、max-margin)に依存しています。
対照的に、これらのヒューリスティックスを学習スケジューラで置き換える。
具体的には,KL規則化マルコフ決定プロセス (MDP) として明示的な基準ポリシを付与し,標準前提の下での政策改善と収束保証を認める正規化目標を最適化する。
このフレームワークの下で最適化されたポリシーは、ヒューリスティックなスケジュールよりもデータ分布とより密に一致したサンプルを生成することを証明している。
経験的に、4つのベンチマークにおいて、学習されたポリシーは最高信任度を一貫して上回ります。例えば、無メイキングの順序が重要なSUDOKUでは、ランダムよりも20.1%、最大信任度より11.2%向上します。
関連論文リスト
- Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models [13.575063025878208]
マスク付き拡散言語モデルは高速で非自己回帰的なテキスト生成を約束する。
モデルの信頼性に基づいてアンマスクするトークンを選択する既存のサンプルは、複数の位置を並列にアンマスクする際のインタラクションを無視する。
DUS(Dilated Unmasking Scheduler)は、列位置を非隣接拡張群に分割し、それらを並列に分割する推論のみのプランナーフリーな手法である。
論文 参考訳(メタデータ) (2025-06-23T18:49:23Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap [3.351714665243138]
我々は,マルコフ決定過程(MDP)における非政治的評価の課題を再考し,分布重なりというより弱い概念の下で検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
我々の実験では、強い分布重なりが保たない場合、適切な乱れが、政治外の正確な評価を可能にする上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Exposing the Implicit Energy Networks behind Masked Language Models via
Metropolis--Hastings [57.133639209759615]
我々は,エネルギーに基づくシーケンスモデルとしてシーケンスを解釈し,訓練者から導出される2つのエネルギーパラメトリゼーションを提案する。
我々はメトロポリス・ハスティングス・モンテカルロのアルゴリズムに基づく抽出可能なエンフスキームを開発した。
提案手法の有効性を,これらのエネルギーモデルから得られた試料の品質を探索することによって検証する。
論文 参考訳(メタデータ) (2021-06-04T22:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。