論文の概要: Infinite Mask Diffusion for Few-Step Distillation
- arxiv url: http://arxiv.org/abs/2605.10518v1
- Date: Mon, 11 May 2026 13:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.831357
- Title: Infinite Mask Diffusion for Few-Step Distillation
- Title(参考訳): 数段蒸留における無期限マスク拡散
- Authors: Jaehoon Yoo, Wonjung Kim, Chanhyuk Lee, Seunghoon Hong,
- Abstract要約: Masked Diffusion Models (MDM) は、言語モデリングにおける自己回帰モデルに代わる有望な代替品として登場した。
MDMの利点を継承しながら理論的境界を緩和するための無限マスク拡散モデル(IMDM)を提案する。
IMDM は LM1B と OpenWebText の小さなステップ数で既存の数ステップの蒸留法を超越している。
- 参考スコア(独自算出の注目度): 16.340935269530842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Diffusion Models (MDMs) have emerged as a promising alternative to autoregressive models in language modeling, offering the advantages of parallel decoding and bidirectional context processing within a simple yet effective framework. Specifically, their explicit distinction between masked tokens and data underlies their simple framework and effective conditional generation. However, MDMs typically require many sampling iterations due to factorization errors stemming from simultaneous token updates. We observe that a theoretical lower bound of the factorization error exists, which standard MDMs cannot reduce due to their use of a deterministic single-state mask. In this paper, we propose the Infinite Mask Diffusion Model (IMDM), which introduces a stochastic infinite-state mask to mitigate the theoretical bound while directly inheriting the benefits of MDMs, including the compatibility with pre-trained weights. We empirically demonstrate that MDM fails to perform few-step generation even in a simple synthetic task due to the factorization error bound, whereas IMDM can find an efficient solution for the same task. Finally, when equipped with appropriate distillation methods, IMDM surpasses existing few-step distillation methods at small step counts on LM1B and OpenWebText. Code is available at https://Ugness.github.io/official_imdm.
- Abstract(参考訳): Masked Diffusion Models (MDM) は言語モデリングにおける自己回帰モデルに代わる有望な代替品として登場し、並列デコーディングと双方向コンテキスト処理の利点をシンプルで効果的なフレームワークで提供する。
具体的には、マスクされたトークンとデータの明確な区別は、単純なフレームワークと効果的な条件生成の基盤となっている。
しかし、MDMは通常、同時トークン更新に起因する分解エラーのために多くのサンプリング反復を必要とする。
我々は,因子化誤差の理論的下限が存在することを観察し,決定論的単一状態マスクを用いることにより,標準MDMは低減できないことを示した。
本稿では, 有限マスク拡散モデル (IMDM) を提案する。このモデルでは, 事前学習した重みとの整合性を含むMDMの利点を直接継承しながら, 理論的境界を緩和する確率的無限状態マスクを導入する。
我々はMDMが単純な合成タスクでも数ステップ生成に失敗するのに対し、IMDMは同じタスクに対して効率的な解を見つけることができることを実証的に実証した。
最後に, 適切な蒸留法を施したIMDMは, LM1B と OpenWebText の少ないステップ数で, 既存の数段蒸留法を超越している。
コードはhttps://Ugness.github.io/official_imdm.comから入手できる。
関連論文リスト
- On the Trainability of Masked Diffusion Language Models via Blockwise Locality [58.92209096047332]
マスク付き拡散言語モデル (MDMs) は、最近、標準自己回帰型大言語モデル (AR-LLMs) に代わる有望な代替品として登場した。
ブロックワイズMDMを解析し,AR-LLMと比較し,構造生成の異なる側面を強調する3つの制御タスクについて検討した。
標準ランダムマスキングMDMは線形回帰を確実に学習できず、グラフパスフィニングにおいて高分散トレーニングダイナミクスを示し、スドクではAR-LLMよりも優れていた。
論文 参考訳(メタデータ) (2026-04-27T17:44:26Z) - VocalNet-MDM: Accelerating Streaming Speech LLM via Self-Distilled Masked Diffusion Modeling [31.58493743596625]
Masked Diffusion Modeling(MDM)は、音声認識のための非自己回帰パラダイムである。
VocalNet-MDMは、限られた6K時間の音声データで訓練されている。
最先端のテキスト品質と音声の自然性を達成しつつ、競争力のある認識精度を維持する。
論文 参考訳(メタデータ) (2026-02-09T12:52:59Z) - Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models [63.50827603618498]
提案するSparse-LaViDaは,MDMサンプリングを高速化するために,各推論ステップで不要なマスク付きトークンをトランケートするモデリングフレームワークである。
最先端の統一MDM LaViDa-Oをベースに構築されたSparse-LaViDaは、さまざまなタスクで最大2倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-12-16T02:06:06Z) - On the Reasoning Abilities of Masked Diffusion Language Models [34.937359931224265]
テキストの仮面拡散モデル(MDM)は、従来の自己回帰言語モデルに代わる魅力的な代替手段を提供する。
我々はMDMが確実に解けるような推論問題の種類と効率を特徴付ける。
論文 参考訳(メタデータ) (2025-10-15T03:29:26Z) - Fine-Tuning Masked Diffusion for Provable Self-Correction [28.338622227684453]
Masked Diffusion Models (MDMs) は離散空間における生成モデリングのための有望なアプローチとして登場した。
PRISM-Plug-in Remasking for Inference-time Self-correction of Masked Diffusions。
論文 参考訳(メタデータ) (2025-10-01T19:15:25Z) - Any-Order Flexible Length Masked Diffusion [53.89217188409148]
マスク付き拡散モデル(MDMs)は、最近、離散領域上の自己回帰モデルに代わる有望な代替として登場した。
本稿では,フレキシブルマスク付き拡散モデル (FlexMDM) を紹介する。
我々は,FlexMDMがMDMと複雑度を一致させながら,より忠実度の高い長さ統計をモデル化することを示した。
論文 参考訳(メタデータ) (2025-08-31T23:34:53Z) - Beyond Masked and Unmasked: Discrete Diffusion Models via Partial Masking [28.55159825491572]
マスケード拡散モデル(MDM)は、離散データのための強力な生成モデルであり、段階的にトークンを配列で解き放つことでサンプルを生成する。
本稿では、トークンがマスクされた状態とマスクされていない状態の間を中間状態にすることでMDMを増強する部分マスキングスキーム(Prime)を提案する。
本手法は,多種多様な生成モデルタスクに対して優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-24T04:16:40Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。