論文の概要: Self-Speculative Masked Diffusions
- arxiv url: http://arxiv.org/abs/2510.03929v1
- Date: Sat, 04 Oct 2025 20:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.347899
- Title: Self-Speculative Masked Diffusions
- Title(参考訳): 自己投機的マスケッド拡散
- Authors: Andrew Campbell, Valentin De Bortoli, Jiaxin Shi, Arnaud Doucet,
- Abstract要約: 本稿では,離散データに対する自己投機的マスク拡散モデルを提案する。
マスク位置上の非分解予測を発生させることにより計算負担を低減する。
我々は,GPT2スケールのテキストモデリングとタンパク質配列生成に本手法を適用し,必要なネットワーク転送回数を2倍に削減できることを確認した。
- 参考スコア(独自算出の注目度): 46.04054227238148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present self-speculative masked diffusions, a new class of masked diffusion generative models for discrete data that require significantly fewer function evaluations to generate samples. Standard masked diffusion models predict factorized logits over currently masked positions. A number of masked positions are then sampled, however, the factorization approximation means that sampling too many positions in one go leads to poor sample quality. As a result, many simulation steps and therefore neural network function evaluations are required to generate high-quality data. We reduce the computational burden by generating non-factorized predictions over masked positions. This is achieved by modifying the final transformer attention mask from non-causal to causal, enabling draft token generation and parallel validation via a novel, model-integrated speculative sampling mechanism. This results in a non-factorized predictive distribution over masked positions in a single forward pass. We apply our method to GPT2 scale text modelling and protein sequences generation, finding that we can achieve a ~2x reduction in the required number of network forward passes relative to standard masked diffusion models.
- Abstract(参考訳): そこで本研究では, 自己投機的マスク拡散モデルを用いて, サンプル生成に要する関数評価を著しく少なくする離散データに対する新しい種類のマスク拡散生成モデルを提案する。
標準的なマスク拡散モデルは、現在マスクされている位置よりも分解ロジットを予測する。
マスクされた位置のいくつかがサンプリングされるが、因子化近似は1回にあまりに多くの位置をサンプリングするとサンプルの品質が低下することを意味する。
その結果、高品質なデータを生成するには、多くのシミュレーションステップやニューラルネットワーク機能の評価が必要である。
マスク位置上の非分解予測を発生させることにより計算負担を低減する。
これは、最終的なトランスフォーマーの注意マスクを非因果から因果に修正し、新しいモデル統合投機サンプリング機構によるドラフトトークンの生成と並列検証を可能にする。
これにより、単一の前方通過におけるマスク位置上の非分解予測分布が得られる。
本手法はGPT2スケールのテキストモデリングとタンパク質配列生成に適用し,標準的なマスク付き拡散モデルと比較して,要求されるネットワークフォワード数の約2倍の削減を実現する。
関連論文リスト
- Demystifying MaskGIT Sampler and Beyond: Adaptive Order Selection in Masked Diffusion [41.409281069230325]
マスク付き拡散モデルでは、幅広い領域で高品質なサンプルを生成する上で有望な性能を示している。
本稿では,画像モデリングのためのMaskGITサンプルを理論的に解析し,その暗黙の温度サンプリング機構を明らかにする。
トークンをサンプリングする前にアンマキング位置を選択することで、"choose-then-sample"アプローチを用いる「モーメントサンプリング」を導入する。
論文 参考訳(メタデータ) (2025-10-06T06:30:22Z) - Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking [17.511240770486452]
仮面拡散モデル (MDM) は, 言語モデリングにおける自己回帰モデル (ARM) と比較して, 競合性能を示した。
本稿では,Entropy bounded unmasking 手法を用いて,既存のサンプルのドロップイン置換であるEB-Samplerを紹介する。
EB-Samplerは、パフォーマンスを損なうことなく、標準的なコーディングと数学推論ベンチマークで、最先端のMDMのサンプリングを約2~3倍高速化する。
論文 参考訳(メタデータ) (2025-05-30T17:52:55Z) - Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling [47.82616476928464]
仮面拡散モデル (MDM) は離散データの生成モデルとして人気がある。
我々はMDMのトレーニングとサンプリングの両方が理論的に時間変数から解放されていることを示す。
一般に使用されている32ビット浮動小数点精度においても,まず基礎となる数値問題を同定した。
論文 参考訳(メタデータ) (2024-09-04T17:48:19Z) - MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model
for Few-Shot Instance Segmentation [31.648523213206595]
少数ショットのインスタンスセグメンテーションは、数ショットの学習パラダイムをインスタンスセグメンテーションタスクに拡張する。
従来のアプローチでは、ポイント推定と呼ばれるプロトタイプ学習を通じてその課題に対処しようと試みてきた。
本稿では,二項マスクの条件分布をモデル化したMaskDiffという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T08:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。