Fugu-MT 論文翻訳(概要): Adaptation to Intrinsic Dependence in Diffusion Language Models

論文の概要: Adaptation to Intrinsic Dependence in Diffusion Language Models

arxiv url: http://arxiv.org/abs/2602.20126v1
Date: Mon, 23 Feb 2026 18:41:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.953232
Title: Adaptation to Intrinsic Dependence in Diffusion Language Models
Title（参考訳）: 拡散言語モデルにおける内在的依存への適応
Authors: Yunxiao Zhao, Changxiao Cai,
Abstract要約: 拡散言語モデル(DLM)は自己回帰(AR)アプローチに代わる有望な代替手段として登場した。対象データ分布の(未知の)依存構造に適応するDLMの分布に依存しないアンマスキングスケジュールを提案する。この結果は, 先行収束理論を著しく改善し, 低複雑さ分布に対する相当なサンプリング加速を得た。
参考スコア（独自算出の注目度）: 5.185131234265025
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion language models (DLMs) have recently emerged as a promising alternative to autoregressive (AR) approaches, enabling parallel token generation beyond a rigid left-to-right order. Despite growing empirical success, the theoretical understanding of how unmasking schedules -- which specify the order and size of unmasked tokens during sampling -- affect generation quality remains limited. In this work, we introduce a distribution-agnostic unmasking schedule for DLMs that adapts to the (unknown) dependence structure of the target data distribution, without requiring any prior knowledge or hyperparameter tuning. In contrast to prior deterministic procedures that fix unmasking sizes, our method randomizes the number of tokens revealed at each iteration. We show that, for two specific parameter choices, the sampling convergence guarantees -- measured by Kullback-Leibler (KL) divergence -- scale as $\widetilde O(\mathsf{TC}/K)$ and $\widetilde O(\mathsf{DTC}/K)$ respectively. Here, $K$ is the number of iterations, and $\mathsf{TC}$ and $\mathsf{DTC}$ are the total correlation and dual total correlation of the target distribution, capturing the intrinsic dependence structure underlying the data. Importantly, our guarantees hold in the practically relevant parallel-sampling regime $K<L$ where $L$ is the token sequence length. These results significantly improve upon prior convergence theories and yield substantial sampling acceleration for low-complexity distributions. Overall, our findings unveil the adaptivity of DLMs to intrinsic data structures and shed light on the benefit of randomized unmasking sizes in inference schedule design.
Abstract（参考訳）: 拡散言語モデル(DLM)は、最近、自己回帰(AR)アプローチに代わる有望な代替として出現し、厳格な左から右への順序を超えた並列トークン生成を可能にした。経験的成功にもかかわらず、サンプリング中の未マスクトークンの順序とサイズを示す、未マスクのスケジュールが生成品質にどのように影響するかという理論的理解は依然として限られている。本研究では,従来の知識やハイパーパラメータチューニングを必要とせず,対象データ分布の(未知の)依存構造に適応するDLMに対して,分布に依存しないアンマキングスケジュールを導入する。アンマスクサイズを固定する以前の決定論的手順とは対照的に,本手法では各反復で現れるトークンの数をランダム化する。 2つのパラメータ選択に対して、サンプリング収束保証 -- Kullback-Leibler (KL) divergence -- は、それぞれ$\widetilde O(\mathsf{TC}/K)$と$\widetilde O(\mathsf{DTC}/K)$にスケールする。ここで、$K$ は反復数であり、$\mathsf{TC}$ と $\mathsf{DTC}$ は対象分布の総相関と二重相関であり、データの背後にある本質的な依存構造を捉える。重要なことは、我々の保証は、実際に関係する並列サンプリング方式$K<L$ ここで$L$はトークンシーケンス長である。これらの結果は、先行収束理論を著しく改善し、低複雑さ分布に対する実質的なサンプリング加速を与える。全体として,本研究はDLMの本質的なデータ構造への適応性を明らかにし,推論スケジュール設計におけるランダム化アンマスキングサイズの利点を浮き彫りにした。

関連論文リスト

Efficient Sampling with Discrete Diffusion Models: Sharp and Adaptive Guarantees [9.180350432640912]
連続時間マルコフ連鎖(CTMC)の定式化によるスコアベース離散拡散モデルのサンプリング効率について検討した。一様離散拡散に対して、$$-leapingアルゴリズムは位数$tilde O(d/varepsilon)$の複雑さを達成することを示す。離散拡散をマスキングするために,本質的な情報理論量によって収束率を制御した$$-leapingサンプルラを導入する。
論文参考訳（メタデータ） (2026-02-16T18:48:17Z)
Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文参考訳（メタデータ） (2026-02-02T09:21:45Z)
Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文参考訳（メタデータ） (2025-12-09T20:44:33Z)
Optimal Inference Schedules for Masked Diffusion Models [16.774584258255768]
マスク付き拡散モデル(MDM)は、順番に多くのトークンを同時に同時にサンプリングすることができる。分布の事前知識が強くなければ、一般にそれと競合することは不可能であることを示す。
論文参考訳（メタデータ） (2025-11-06T18:38:24Z)
Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models [51.12873073612084]
Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。 LookUMはピーク性能を達成するために2～3つの経路しか必要とせず、極めて効率的な経路選択を示す。
論文参考訳（メタデータ） (2025-11-04T02:37:37Z)
Parallel Sampling from Masked Diffusion Models via Conditional Independence Testing [4.707859580472452]
仮面拡散モデル(MDM)は、離散テキスト生成のための自己回帰モデル(ARM)に代わる魅力的な代替手段を提供する。シーケンシャルな左から右への生成ではなく、並列トークンサンプリングを可能にする。本稿では,このトレードオフを再現するモデル非依存のサンプル装置PUNTを紹介する。
論文参考訳（メタデータ） (2025-10-24T18:41:26Z)
DiffGRM: Diffusion-based Generative Recommendation Model [63.35379395455103]
ジェネレーティブレコメンデーション(GR)は、トークン化器を介して各項目をn桁のセマンティックID(SID)として表現する新興パラダイムである。自己回帰デコーダをマスク付き離散拡散モデル(MDM)に置き換える拡散ベースGRモデルDiffGRMを提案する。実験では、複数のデータセットに対する強力な生成的および差別的推奨ベースラインよりも一貫した利得を示す。
論文参考訳（メタデータ） (2025-10-21T03:23:32Z)
MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。 MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文参考訳（メタデータ） (2025-06-15T15:02:59Z)
Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文参考訳（メタデータ） (2025-04-29T06:33:13Z)
O(d/T) Convergence Theory for Diffusion Probabilistic Models under Minimal Assumptions [6.76974373198208]
最小の仮定の下で,拡散確率モデル(DDPM)の高速収束理論を確立する。収束率は$O(k/T)$に改善され、$k$は対象データ分布の内在次元であることを示す。これはDDPMが未知の低次元構造に自動的に適応する能力を強調している。
論文参考訳（メタデータ） (2024-09-27T17:59:10Z)
DFedADMM: Dual Constraints Controlled Model Inconsistency for Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文参考訳（メタデータ） (2023-08-16T11:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。