論文の概要: Self-Speculative Masked Diffusions
- arxiv url: http://arxiv.org/abs/2510.03929v1
- Date: Sat, 04 Oct 2025 20:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.347899
- Title: Self-Speculative Masked Diffusions
- Title(参考訳): 自己投機的マスケッド拡散
- Authors: Andrew Campbell, Valentin De Bortoli, Jiaxin Shi, Arnaud Doucet,
- Abstract要約: 本稿では,離散データに対する自己投機的マスク拡散モデルを提案する。
マスク位置上の非分解予測を発生させることにより計算負担を低減する。
我々は,GPT2スケールのテキストモデリングとタンパク質配列生成に本手法を適用し,必要なネットワーク転送回数を2倍に削減できることを確認した。
- 参考スコア(独自算出の注目度): 46.04054227238148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present self-speculative masked diffusions, a new class of masked diffusion generative models for discrete data that require significantly fewer function evaluations to generate samples. Standard masked diffusion models predict factorized logits over currently masked positions. A number of masked positions are then sampled, however, the factorization approximation means that sampling too many positions in one go leads to poor sample quality. As a result, many simulation steps and therefore neural network function evaluations are required to generate high-quality data. We reduce the computational burden by generating non-factorized predictions over masked positions. This is achieved by modifying the final transformer attention mask from non-causal to causal, enabling draft token generation and parallel validation via a novel, model-integrated speculative sampling mechanism. This results in a non-factorized predictive distribution over masked positions in a single forward pass. We apply our method to GPT2 scale text modelling and protein sequences generation, finding that we can achieve a ~2x reduction in the required number of network forward passes relative to standard masked diffusion models.
- Abstract(参考訳): そこで本研究では, 自己投機的マスク拡散モデルを用いて, サンプル生成に要する関数評価を著しく少なくする離散データに対する新しい種類のマスク拡散生成モデルを提案する。
標準的なマスク拡散モデルは、現在マスクされている位置よりも分解ロジットを予測する。
マスクされた位置のいくつかがサンプリングされるが、因子化近似は1回にあまりに多くの位置をサンプリングするとサンプルの品質が低下することを意味する。
その結果、高品質なデータを生成するには、多くのシミュレーションステップやニューラルネットワーク機能の評価が必要である。
マスク位置上の非分解予測を発生させることにより計算負担を低減する。
これは、最終的なトランスフォーマーの注意マスクを非因果から因果に修正し、新しいモデル統合投機サンプリング機構によるドラフトトークンの生成と並列検証を可能にする。
これにより、単一の前方通過におけるマスク位置上の非分解予測分布が得られる。
本手法はGPT2スケールのテキストモデリングとタンパク質配列生成に適用し,標準的なマスク付き拡散モデルと比較して,要求されるネットワークフォワード数の約2倍の削減を実現する。
関連論文リスト
- Learn from Your Mistakes: Self-Correcting Masked Diffusion Models [31.536464269884103]
マスク付き拡散モデル(MDM)は自己回帰モデルに代わる有望な代替品として登場している。
本研究では、モデルにアンマキングと修正の両方を行うよう訓練するフレームワークを提案する。
トレーニングとサンプリングの手法をProSeCo(Progressive Self-Correction)と名付けました。
論文 参考訳(メタデータ) (2026-02-12T05:17:31Z) - A Random Matrix Theory of Masked Self-Supervised Regression [16.836043197411378]
実験では,様々なマスキングパターンにまたがって予測を集約し,行列値の合同予測を行う。
このオブジェクトは、互いに条件をコーディネートする方法を符号化し、新しい分析課題を生じさせる。
マスクされた自己教師型学習がPCAを確実に上回る構造的体制を同定する。
論文 参考訳(メタデータ) (2026-01-30T17:32:33Z) - Demystifying MaskGIT Sampler and Beyond: Adaptive Order Selection in Masked Diffusion [41.409281069230325]
マスク付き拡散モデルでは、幅広い領域で高品質なサンプルを生成する上で有望な性能を示している。
本稿では,画像モデリングのためのMaskGITサンプルを理論的に解析し,その暗黙の温度サンプリング機構を明らかにする。
トークンをサンプリングする前にアンマキング位置を選択することで、"choose-then-sample"アプローチを用いる「モーメントサンプリング」を導入する。
論文 参考訳(メタデータ) (2025-10-06T06:30:22Z) - Accelerated Sampling from Masked Diffusion Models via Entropy Bounded Unmasking [17.511240770486452]
仮面拡散モデル (MDM) は, 言語モデリングにおける自己回帰モデル (ARM) と比較して, 競合性能を示した。
本稿では,Entropy bounded unmasking 手法を用いて,既存のサンプルのドロップイン置換であるEB-Samplerを紹介する。
EB-Samplerは、パフォーマンスを損なうことなく、標準的なコーディングと数学推論ベンチマークで、最先端のMDMのサンプリングを約2~3倍高速化する。
論文 参考訳(メタデータ) (2025-05-30T17:52:55Z) - Text Generation Beyond Discrete Token Sampling [74.06071135207635]
入力の混合(Mixture of Inputs, MoI)は、自動回帰生成のためのトレーニング不要な方法である。
MoIはQwQ-32B、Nemotron-Super-49B、Gemma-3-27B、DAPO-Qwen-32Bを含む複数のモデルのパフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-20T18:41:46Z) - One-for-More: Continual Diffusion Model for Anomaly Detection [63.50488826645681]
異常検出法は拡散モデルを用いて任意の異常画像が与えられたときの正常サンプルの生成または再構成を行う。
われわれは,拡散モデルが「重度忠実幻覚」と「破滅的な忘れ」に悩まされていることを発見した。
本研究では,安定な連続学習を実現するために勾配予測を用いた連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-27T07:47:27Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling [47.82616476928464]
仮面拡散モデル (MDM) は離散データの生成モデルとして人気がある。
我々はMDMのトレーニングとサンプリングの両方が理論的に時間変数から解放されていることを示す。
一般に使用されている32ビット浮動小数点精度においても,まず基礎となる数値問題を同定した。
論文 参考訳(メタデータ) (2024-09-04T17:48:19Z) - Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。
決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。
本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:20:54Z) - MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model
for Few-Shot Instance Segmentation [31.648523213206595]
少数ショットのインスタンスセグメンテーションは、数ショットの学習パラダイムをインスタンスセグメンテーションタスクに拡張する。
従来のアプローチでは、ポイント推定と呼ばれるプロトタイプ学習を通じてその課題に対処しようと試みてきた。
本稿では,二項マスクの条件分布をモデル化したMaskDiffという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T08:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。