論文の概要: DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking
- arxiv url: http://arxiv.org/abs/2603.01367v1
- Date: Mon, 02 Mar 2026 01:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.648689
- Title: DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking
- Title(参考訳): DUEL:決定論的アンマキングによる仮面拡散の厳格化
- Authors: Gilad Turok, Chris De Sa, Volodymyr Kuleshov,
- Abstract要約: マスク付き拡散モデル(MDM)は、アンマスクの位置を反復的に選択し、それらの位置でトークンを予測することによってテキストを生成する。
ELBOは、試験時間分布ではなく、トレーニング分布の下ではゆるやかに境界づけられている。
我々は,決定論的位置選択を形式化し,主要なMDMサンプリング戦略を統一するtextscDUELフレームワークを導入する。
- 参考スコア(独自算出の注目度): 13.905201743303214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion models (MDMs) generate text by iteratively selecting positions to unmask and then predicting tokens at those positions. Yet MDMs lack proper perplexity evaluation: the ELBO is a loose bound on likelihood under the training distribution, not the test-time distribution, while generative perplexity requires a biased external model and ignores diversity. To address this, we introduce the \textsc{DUEL} framework, which formalizes \emph{deterministic} position selection, unifying leading MDM sampling strategies. We prove \textbf{\textsc{DUEL} admits \emph{exact} likelihood computation} via a simple algorithm, evaluated under the same position selection used at test time. This \textbf{gives MDMs proper perplexity for the first time} -- the natural analogue of autoregressive perplexity. With proper perplexity in hand, we revisit key questions about MDMs. \textbf{MDMs are substantially better than previously thought}: the MDM-autoregressive perplexity gap shrinks by up to 32\% on in-domain data and 82\% on zero-shot benchmarks. \textsc{DUEL} enables the first principled comparison of fast, parallel samplers across compute budgets -- an analysis impossible with the ELBO and unreliable with generative perplexity -- identifying probability margin \citep{kim2025train} as a strong default. Finally, oracle search over position orderings reveals MDMs can far surpass autoregressive models -- achieving 36.47 vs.\ 52.11 perplexity on AG News -- demonstrating the ceiling of MDM performance has not yet been reached.
- Abstract(参考訳): マスク付き拡散モデル(MDM)は、アンマスクの位置を反復的に選択し、それらの位置でトークンを予測することによってテキストを生成する。
ELBOは、試験時間分布ではなく、トレーニング分布下での可能性が緩く、生成的パープレキシティはバイアスのある外部モデルを必要とし、多様性を無視する。
この問題に対処するため,本稿では,emph{deterministic} 位置選択を形式化し,主要な MDM サンプリング戦略を統一するフレームワークである \textsc{DUEL} を導入する。
我々は,テスト時に使用するのと同じ位置選択で評価された単純なアルゴリズムを用いて, \textbf{\textsc{DUEL} が \emph{exact} chance compute} を許容することを示す。
この \textbf{gives MDMs proper perplexity for the first} は自己回帰的 Perplexity の自然な類似である。
適切なパープレキシティを手にして、MDMに関する重要な疑問を再考する。
MDM-自己回帰パープレキシティギャップは、ドメイン内のデータでは最大32倍、ゼロショットベンチマークでは82倍まで縮小する。
\textsc{DUEL} は計算予算間での高速で並列なサンプリングを第一原理的に比較できる -- ELBOでは不可能であり、生成的パープレクシリティでは信頼できない – 確率マージン \citep{kim2025train} を強力なデフォルトとして識別する。
最後に、位置順のオーラクルサーチにより、DMMは自己回帰モデル(AGニュースの36.47対52.11パープレキシティ)をはるかに超える可能性があることが判明した。
関連論文リスト
- Improving Sampling for Masked Diffusion Models via Information Gain [9.059619122219502]
Masked Diffusion Models (MDM) は自己回帰モデルよりもデコード順序の柔軟性が高い。
既存のサンプルは、通常、各ステップでデコードするために最も高い局所的確実性を持つ位置を優先順位付けするグリーディを採用する。
本稿では,情報ゲインと即時不確実性を両立させる原理的復号化フレームワークであるInfo-Gain Samplerを提案する。
論文 参考訳(メタデータ) (2026-02-20T12:26:03Z) - Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model [74.99242687133408]
Masked Diffusion Models (MDMs) は、視覚、言語、モーダル・ジェネレーションにまたがる有望な可能性を示している。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
論文 参考訳(メタデータ) (2025-12-25T12:06:04Z) - MDiff4STR: Mask Diffusion Model for Scene Text Recognition [59.79818820650126]
Mask Diffusion Models (MDM) は、視覚言語タスクのための自動回帰モデル (ARM) に代わる有望な代替品として登場した。
我々は,認識効率は向上するが,バニラMDMがARMに遅れていることを示す。
シーンテキスト認識に適した2つの重要な改善戦略を備えたマスク拡散モデルMDiff4STRを提案する。
論文 参考訳(メタデータ) (2025-12-01T08:57:51Z) - Parallel Sampling from Masked Diffusion Models via Conditional Independence Testing [4.707859580472452]
仮面拡散モデル(MDM)は、離散テキスト生成のための自己回帰モデル(ARM)に代わる魅力的な代替手段を提供する。
シーケンシャルな左から右への生成ではなく、並列トークンサンプリングを可能にする。
本稿では,このトレードオフを再現するモデル非依存のサンプル装置PUNTを紹介する。
論文 参考訳(メタデータ) (2025-10-24T18:41:26Z) - Fine-Tuning Masked Diffusion for Provable Self-Correction [28.338622227684453]
Masked Diffusion Models (MDMs) は離散空間における生成モデリングのための有望なアプローチとして登場した。
PRISM-Plug-in Remasking for Inference-time Self-correction of Masked Diffusions。
論文 参考訳(メタデータ) (2025-10-01T19:15:25Z) - Any-Order Flexible Length Masked Diffusion [53.89217188409148]
マスク付き拡散モデル(MDMs)は、最近、離散領域上の自己回帰モデルに代わる有望な代替として登場した。
本稿では,フレキシブルマスク付き拡散モデル (FlexMDM) を紹介する。
我々は,FlexMDMがMDMと複雑度を一致させながら,より忠実度の高い長さ統計をモデル化することを示した。
論文 参考訳(メタデータ) (2025-08-31T23:34:53Z) - Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking [17.511240770486452]
仮面拡散モデル (MDM) は, 言語モデリングにおける自己回帰モデル (ARM) と比較して, 競合性能を示した。
本稿では,Entropy bounded unmasking 手法を用いて,既存のサンプルのドロップイン置換であるEB-Samplerを紹介する。
EB-Samplerは、パフォーマンスを損なうことなく、標準的なコーディングと数学推論ベンチマークで、最先端のMDMのサンプリングを約2~3倍高速化する。
論文 参考訳(メタデータ) (2025-05-30T17:52:55Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling [47.82616476928464]
仮面拡散モデル (MDM) は離散データの生成モデルとして人気がある。
我々はMDMのトレーニングとサンプリングの両方が理論的に時間変数から解放されていることを示す。
一般に使用されている32ビット浮動小数点精度においても,まず基礎となる数値問題を同定した。
論文 参考訳(メタデータ) (2024-09-04T17:48:19Z) - Open-Domain Text Evaluation via Contrastive Distribution Methods [75.59039812868681]
本稿では,Contrastive Distribution Methodsと呼ばれるオープンドメインテキスト生成手法を提案する。
マルチターン対話におけるコヒーレンス評価と制御可能な生成におけるコヒーレンス評価の実験により,CDMの優位性は人間の判断と相関していることが示された。
論文 参考訳(メタデータ) (2023-06-20T20:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。