論文の概要: Optimal Inference Schedules for Masked Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.04647v1
- Date: Thu, 06 Nov 2025 18:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.562005
- Title: Optimal Inference Schedules for Masked Diffusion Models
- Title(参考訳): マスク付き拡散モデルのための最適推論スケジューリング
- Authors: Sitan Chen, Kevin Cong, Jerry Li,
- Abstract要約: マスク付き拡散モデル(MDM)は、順番に多くのトークンを同時に同時にサンプリングすることができる。
分布の事前知識が強くなければ、一般にそれと競合することは不可能であることを示す。
- 参考スコア(独自算出の注目度): 16.774584258255768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major bottleneck of standard auto-regressive large language models is that their inference process is inherently sequential, resulting in very long and costly inference times. To circumvent this, practitioners proposed a class of language models called diffusion language models, of which the masked diffusion model (MDM) is the most successful. The MDM is able to sample tokens out-of-order and, ostensibly, many tokens at once and in parallel. However, there is very limited rigorous understanding of how much parallel sampling these models can perform without noticeable degradation in their sampling performance. Prior work of Li and Cai obtained some preliminary bounds, but these are not tight for many natural classes of distributions. In this work, we give a new, exact characterization of the expected divergence between the true distribution and the sampled distribution, for any distribution and any unmasking schedule for the sampler, showing an elegant connection to the theory of univariate function approximation. By leveraging this connection, we then attain a number of novel lower and upper bounds for this problem. While the connection to function approximation in principle gives the optimal unmasking schedule for any distribution, we show that it is in general impossible to compete with it without strong a priori knowledge of the distribution, even in seemingly benign settings. However, we also demonstrate new upper bounds and new sampling schedules in terms of well-studied information-theoretic properties of the base distribution, namely, its total correlation and dual total correlation, which show that in some natural settings, one can sample in $O(log n)$ steps without any visible loss in performance, where $n$ is the total sequence length.
- Abstract(参考訳): 標準の自己回帰型大規模言語モデルのボトルネックは、推論プロセスが本質的にシーケンシャルであり、非常に長くコストがかかることにある。
これを回避するために、実践者は拡散言語モデルと呼ばれる言語モデルのクラスを提案し、その中で最も成功したのがマスク拡散モデル(MDM)である。
MDMは、順番に多くのトークンをサンプリングすることができ、かつ、目に見えるように、同時に同時に多くのトークンをサンプリングすることができる。
しかしながら、これらのモデルがサンプリング性能を著しく低下させることなく、どれだけの並列サンプリングを行うことができるかという厳密な理解は極めて限られている。
Li と Cai の以前の研究はいくつかの予備境界を得たが、これは多くの分布の自然類に対して厳密ではない。
本研究では, 実分布と標本分布との有意なばらつきを, サンプリング器の任意の分布と未一致スケジュールに対して新たに正確に評価し, 単変量関数近似の理論とエレガントな関係を示す。
この接続を利用することで、この問題に対して多くの新しい下限と上限を達成できる。
関数近似への接続は、原則として任意の分布に対して最適なアンマキングスケジュールを与えるが、その分布に関する事前知識が強固になければ、たとえ一見した設定であっても、一般にそれと競合することは不可能であることを示す。
しかし,本論文では,基本分布の高次分布,すなわち,その全相関関係と二重全相関関係について,よりよく研究された情報理論特性を用いて,新たな上限値とサンプリングスケジュールを示すとともに,ある自然条件下では,n$が全列長であるような性能の損失を生じさせないよう,$O(log n)$ステップでサンプルをサンプリングできることが示されている。
関連論文リスト
- Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Minimax Optimality of the Probability Flow ODE for Diffusion Models [8.15094483029656]
この研究は、決定論的ODEベースのサンプリングのための最初のエンドツーエンド理論フレームワークを開発する。
L2$のスコア誤差と関連する平均ジャコビアン誤差の両方を同時に制御するスムーズな正規化スコア推定器を提案する。
得られたサンプルは全変動距離, 変調対数係数において最小値が得られることを示す。
論文 参考訳(メタデータ) (2025-03-12T17:51:29Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Non-asymptotic bounds for forward processes in denoising diffusions: Ornstein-Uhlenbeck is hard to beat [49.1574468325115]
本稿では,全変動(TV)における前方拡散誤差の非漸近的境界について述べる。
我々は、R$からFarthestモードまでの距離でマルチモーダルデータ分布をパラメライズし、加法的および乗法的雑音による前方拡散を考察する。
論文 参考訳(メタデータ) (2024-08-25T10:28:31Z) - Stacking for Non-mixing Bayesian Computations: The Curse and Blessing of
Multimodal Posteriors [8.11978827493967]
MCMCの並列実行, 変動型, モードベースの推論を用いて, できるだけ多くのモードをヒットさせる手法を提案する。
重み付き推論プロセスが真のデータを近似する例と理論的整合性を示す。
いくつかのモデルファミリで実践的な実装を示す。
論文 参考訳(メタデータ) (2020-06-22T15:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。