論文の概要: Adaptation to Intrinsic Dependence in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.20126v1
- Date: Mon, 23 Feb 2026 18:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.953232
- Title: Adaptation to Intrinsic Dependence in Diffusion Language Models
- Title(参考訳): 拡散言語モデルにおける内在的依存への適応
- Authors: Yunxiao Zhao, Changxiao Cai,
- Abstract要約: 拡散言語モデル(DLM)は自己回帰(AR)アプローチに代わる有望な代替手段として登場した。
対象データ分布の(未知の)依存構造に適応するDLMの分布に依存しないアンマスキングスケジュールを提案する。
この結果は, 先行収束理論を著しく改善し, 低複雑さ分布に対する相当なサンプリング加速を得た。
- 参考スコア(独自算出の注目度): 5.185131234265025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (DLMs) have recently emerged as a promising alternative to autoregressive (AR) approaches, enabling parallel token generation beyond a rigid left-to-right order. Despite growing empirical success, the theoretical understanding of how unmasking schedules -- which specify the order and size of unmasked tokens during sampling -- affect generation quality remains limited. In this work, we introduce a distribution-agnostic unmasking schedule for DLMs that adapts to the (unknown) dependence structure of the target data distribution, without requiring any prior knowledge or hyperparameter tuning. In contrast to prior deterministic procedures that fix unmasking sizes, our method randomizes the number of tokens revealed at each iteration. We show that, for two specific parameter choices, the sampling convergence guarantees -- measured by Kullback-Leibler (KL) divergence -- scale as $\widetilde O(\mathsf{TC}/K)$ and $\widetilde O(\mathsf{DTC}/K)$ respectively. Here, $K$ is the number of iterations, and $\mathsf{TC}$ and $\mathsf{DTC}$ are the total correlation and dual total correlation of the target distribution, capturing the intrinsic dependence structure underlying the data. Importantly, our guarantees hold in the practically relevant parallel-sampling regime $K<L$ where $L$ is the token sequence length. These results significantly improve upon prior convergence theories and yield substantial sampling acceleration for low-complexity distributions. Overall, our findings unveil the adaptivity of DLMs to intrinsic data structures and shed light on the benefit of randomized unmasking sizes in inference schedule design.
- Abstract(参考訳): 拡散言語モデル(DLM)は、最近、自己回帰(AR)アプローチに代わる有望な代替として出現し、厳格な左から右への順序を超えた並列トークン生成を可能にした。
経験的成功にもかかわらず、サンプリング中の未マスクトークンの順序とサイズを示す、未マスクのスケジュールが生成品質にどのように影響するかという理論的理解は依然として限られている。
本研究では,従来の知識やハイパーパラメータチューニングを必要とせず,対象データ分布の(未知の)依存構造に適応するDLMに対して,分布に依存しないアンマキングスケジュールを導入する。
アンマスクサイズを固定する以前の決定論的手順とは対照的に,本手法では各反復で現れるトークンの数をランダム化する。
2つのパラメータ選択に対して、サンプリング収束保証 -- Kullback-Leibler (KL) divergence -- は、それぞれ$\widetilde O(\mathsf{TC}/K)$と$\widetilde O(\mathsf{DTC}/K)$にスケールする。
ここで、$K$ は反復数であり、$\mathsf{TC}$ と $\mathsf{DTC}$ は対象分布の総相関と二重相関であり、データの背後にある本質的な依存構造を捉える。
重要なことは、我々の保証は、実際に関係する並列サンプリング方式$K<L$ ここで$L$はトークンシーケンス長である。
これらの結果は、先行収束理論を著しく改善し、低複雑さ分布に対する実質的なサンプリング加速を与える。
全体として,本研究はDLMの本質的なデータ構造への適応性を明らかにし,推論スケジュール設計におけるランダム化アンマスキングサイズの利点を浮き彫りにした。
関連論文リスト
- Efficient Sampling with Discrete Diffusion Models: Sharp and Adaptive Guarantees [9.180350432640912]
連続時間マルコフ連鎖(CTMC)の定式化によるスコアベース離散拡散モデルのサンプリング効率について検討した。
一様離散拡散に対して、$$-leapingアルゴリズムは位数$tilde O(d/varepsilon)$の複雑さを達成することを示す。
離散拡散をマスキングするために,本質的な情報理論量によって収束率を制御した$$-leapingサンプルラを導入する。
論文 参考訳(メタデータ) (2026-02-16T18:48:17Z) - Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - Optimal Inference Schedules for Masked Diffusion Models [16.774584258255768]
マスク付き拡散モデル(MDM)は、順番に多くのトークンを同時に同時にサンプリングすることができる。
分布の事前知識が強くなければ、一般にそれと競合することは不可能であることを示す。
論文 参考訳(メタデータ) (2025-11-06T18:38:24Z) - DiffGRM: Diffusion-based Generative Recommendation Model [63.35379395455103]
ジェネレーティブレコメンデーション(GR)は、トークン化器を介して各項目をn桁のセマンティックID(SID)として表現する新興パラダイムである。
自己回帰デコーダをマスク付き離散拡散モデル(MDM)に置き換える拡散ベースGRモデルDiffGRMを提案する。
実験では、複数のデータセットに対する強力な生成的および差別的推奨ベースラインよりも一貫した利得を示す。
論文 参考訳(メタデータ) (2025-10-21T03:23:32Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - DFedADMM: Dual Constraints Controlled Model Inconsistency for
Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。
既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2023-08-16T11:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。