論文の概要: DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking
- arxiv url: http://arxiv.org/abs/2603.01367v2
- Date: Tue, 10 Mar 2026 17:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.652668
- Title: DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking
- Title(参考訳): DUEL:決定論的アンマキングによる仮面拡散の厳格化
- Authors: Gilad Turok, Chris De Sa, Volodymyr Kuleshov,
- Abstract要約: マスク付き拡散モデルは、アンマスクの位置を反復的に選択し、それらの位置でトークンを予測することによってテキストを生成する。
DUELフレームワークは、$textitdeterministic$ position selectionを利用する主要なMDMサンプリング戦略を統合する。
DUELは計算予算間で高速並列サンプリング器の第一原理比較を可能にする。
- 参考スコア(独自算出の注目度): 13.905201743303214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion models (MDMs) generate text by iteratively selecting positions to unmask and then predicting tokens at those positions. Yet MDMs lack proper likelihood evaluation: the evidence lower bound (ELBO) is not only a loose bound on log-likelihood, but, as we show, is also computed under the training distribution rather than the test-time distribution. We resolve this within our DUEL framework, which unifies leading MDM sampling strategies that employ $\textit{deterministic}$ position selection. We prove that DUEL samplers admit $\textbf{exact likelihood computation under the test-time distribution}$ -- giving MDMs $\textit{proper}$ likelihood, and hence proper perplexity, for the first time. This proper perplexity is the natural analogue of autoregressive perplexity and lets us revisit key questions about MDMs. $\textbf{MDMs are substantially better than previously thought}$: the MDM-autoregressive perplexity gap shrinks by up to $32\%$ on in-domain data and $82\%$ on zero-shot benchmarks. DUEL enables the first principled comparison of fast,parallel samplers across compute budgets -- an analysis impossible with the ELBO and unreliable with generative perplexity -- identifying a strong default method. Finally, oracle search over position orderings reveals MDMs can far surpass autoregressive models -- achieving $36.47$ vs. $52.11$ perplexity on AG News -- demonstrating the ceiling of MDM performance has not yet been reached.
- Abstract(参考訳): マスク付き拡散モデル(MDM)は、アンマスクの位置を反復的に選択し、それらの位置でトークンを予測することによってテキストを生成する。
ELBO(エビデンス・ロー・バウンド)は、ログライクリッド上の緩いバウンドであるだけでなく、テスト時間分布ではなくトレーニング分布の下でも計算される。
我々はこのことをDUELフレームワーク内で解決し、$\textit{deterministic}$ position selectionを利用する主要なMDMサンプリング戦略を統合する。
MDMs $\textit{proper}$ chance, したがって、適切なパープレキシティを初めて与える。
この適切なパープレキシティは自己回帰的パープレキシティの自然な類似であり、MDMに関する重要な疑問を再考する。
MDM-autoregressive perplexity gaps は、ドメイン内のデータで最大 32\% 、ゼロショットベンチマークで 82\% まで縮小します。
DUELは、計算予算間での高速並列サンプリングの最初の原則による比較を可能にする -- ELBOでは不可能で、生成的パープレクシリティでは信頼性が低い -- で、強力なデフォルトメソッドを特定できる。
最後に、位置情報の順序付けに関するオラクルの検索は、DMMが自動回帰モデル(AGニュースの36.47ドル対52.11ドルパープレキシティ)をはるかに超える可能性があることを明らかにした。
関連論文リスト
- Improving Sampling for Masked Diffusion Models via Information Gain [9.059619122219502]
Masked Diffusion Models (MDM) は自己回帰モデルよりもデコード順序の柔軟性が高い。
既存のサンプルは、通常、各ステップでデコードするために最も高い局所的確実性を持つ位置を優先順位付けするグリーディを採用する。
本稿では,情報ゲインと即時不確実性を両立させる原理的復号化フレームワークであるInfo-Gain Samplerを提案する。
論文 参考訳(メタデータ) (2026-02-20T12:26:03Z) - Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model [74.99242687133408]
Masked Diffusion Models (MDMs) は、視覚、言語、モーダル・ジェネレーションにまたがる有望な可能性を示している。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
論文 参考訳(メタデータ) (2025-12-25T12:06:04Z) - MDiff4STR: Mask Diffusion Model for Scene Text Recognition [59.79818820650126]
Mask Diffusion Models (MDM) は、視覚言語タスクのための自動回帰モデル (ARM) に代わる有望な代替品として登場した。
我々は,認識効率は向上するが,バニラMDMがARMに遅れていることを示す。
シーンテキスト認識に適した2つの重要な改善戦略を備えたマスク拡散モデルMDiff4STRを提案する。
論文 参考訳(メタデータ) (2025-12-01T08:57:51Z) - Parallel Sampling from Masked Diffusion Models via Conditional Independence Testing [4.707859580472452]
仮面拡散モデル(MDM)は、離散テキスト生成のための自己回帰モデル(ARM)に代わる魅力的な代替手段を提供する。
シーケンシャルな左から右への生成ではなく、並列トークンサンプリングを可能にする。
本稿では,このトレードオフを再現するモデル非依存のサンプル装置PUNTを紹介する。
論文 参考訳(メタデータ) (2025-10-24T18:41:26Z) - Fine-Tuning Masked Diffusion for Provable Self-Correction [28.338622227684453]
Masked Diffusion Models (MDMs) は離散空間における生成モデリングのための有望なアプローチとして登場した。
PRISM-Plug-in Remasking for Inference-time Self-correction of Masked Diffusions。
論文 参考訳(メタデータ) (2025-10-01T19:15:25Z) - Any-Order Flexible Length Masked Diffusion [53.89217188409148]
マスク付き拡散モデル(MDMs)は、最近、離散領域上の自己回帰モデルに代わる有望な代替として登場した。
本稿では,フレキシブルマスク付き拡散モデル (FlexMDM) を紹介する。
我々は,FlexMDMがMDMと複雑度を一致させながら,より忠実度の高い長さ統計をモデル化することを示した。
論文 参考訳(メタデータ) (2025-08-31T23:34:53Z) - Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking [17.511240770486452]
仮面拡散モデル (MDM) は, 言語モデリングにおける自己回帰モデル (ARM) と比較して, 競合性能を示した。
本稿では,Entropy bounded unmasking 手法を用いて,既存のサンプルのドロップイン置換であるEB-Samplerを紹介する。
EB-Samplerは、パフォーマンスを損なうことなく、標準的なコーディングと数学推論ベンチマークで、最先端のMDMのサンプリングを約2~3倍高速化する。
論文 参考訳(メタデータ) (2025-05-30T17:52:55Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling [47.82616476928464]
仮面拡散モデル (MDM) は離散データの生成モデルとして人気がある。
我々はMDMのトレーニングとサンプリングの両方が理論的に時間変数から解放されていることを示す。
一般に使用されている32ビット浮動小数点精度においても,まず基礎となる数値問題を同定した。
論文 参考訳(メタデータ) (2024-09-04T17:48:19Z) - Open-Domain Text Evaluation via Contrastive Distribution Methods [75.59039812868681]
本稿では,Contrastive Distribution Methodsと呼ばれるオープンドメインテキスト生成手法を提案する。
マルチターン対話におけるコヒーレンス評価と制御可能な生成におけるコヒーレンス評価の実験により,CDMの優位性は人間の判断と相関していることが示された。
論文 参考訳(メタデータ) (2023-06-20T20:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。