論文の概要: DPRM: A Plug-in Doob h transform-induced Token-Ordering Module for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2604.24357v1
- Date: Mon, 27 Apr 2026 11:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.964214
- Title: DPRM: A Plug-in Doob h transform-induced Token-Ordering Module for Diffusion Language Models
- Title(参考訳): DPRM:拡散言語モデルのための変換によるToken-Orderingモジュール
- Authors: Dake Bu, Wei Huang, Andi Han, Hau-San Wong, Qingfu Zhang, Taiji Suzuki, Atsushi Nitanda,
- Abstract要約: 本稿では拡散言語モデルのためのプラグイントークン順序付けモジュールDPRM(Doob h-transform Process Reward Model)を紹介する。
DPRMは信頼性駆動のプログレッシブオーダから始まり、徐々にDoobh変換プロセスリワード誘導オーダへと移行する。
抽出可能な最適化の仮定の下では、DPRMはランダムおよび信頼のみの順序よりもサンプル複雑さの優位性が得られる。
- 参考スコア(独自算出の注目度): 76.12556589212666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models generate without a fixed left-to-right order, making token ordering a central algorithmic choice: which tokens should be revealed, retained, revised or verified at each step? Existing systems mainly use random masking or confidence-driven ordering. Random masking creates train--test mismatch, while confidence-only rules are efficient but can be myopic and suppress useful exploration. We introduce DPRM (Doob h-transform Process Reward Model), a plug-in token-ordering module for diffusion language models. DPRM keeps the host architecture, denoising objective and supervision unchanged, and changes only the ordering policy. It starts from confidence-driven progressive ordering and gradually shifts to Doob h transform Process Reward guided ordering through online estimates. We characterize the exact DPRM policy as a reward-tilted Gibbs reveal law, prove O(1/N) convergence of the stagewise Soft-BoN approximation, and show that the online bucketized controller tracks the exact DPRM score at empirical-Bernstein rates. Under tractable optimization assumptions, DPRM also yields a sample-complexity advantage over random and confidence-only ordering. DPRM improves over confidence-based baselines in pretraining, post-training, test-time scaling, and single-cell masked diffusion, with particularly strong gains on harder reasoning subsets. In protein, molecular generation and DNA design, the effect is more multi-objective: ordering-aware variants significantly improve selected structural or fragment-constrained metrics while not uniformly dominating the host baseline on every quality metric. These results identify token ordering as a fundamental control axis in diffusion language models and establish DPRM as a general-purpose module for improving it. Code is available at https://github.com/DakeBU/DPRM-DLLM.
- Abstract(参考訳): 拡散言語モデルは、固定された左から右への順序なしで生成し、トークンの順序を中央のアルゴリズム選択にします。
既存のシステムは、主にランダムマスキングまたは信頼駆動注文を使用する。
ランダムマスキングは列車のミスマッチを生成するが、信頼のみのルールは効率的だが、筋電図であり、有用な探索を抑えることができる。
本稿では拡散言語モデルのためのプラグイントークン順序付けモジュールDPRM(Doob h-transform Process Reward Model)を紹介する。
DPRMはホストアーキテクチャを維持し、目的と監督を常に監視し、順序付けポリシーだけを変更する。
信頼性駆動のプログレッシブオーダから始まり、徐々にDoobh変換プロセスリワードガイドオーダへと、オンライン見積を通じて移行します。
我々は,DPRMの厳密なポリシーを報奨型ギブズ法として特徴付け,段階的にSoft-BoN近似のO(1/N)収束を証明し,オンラインバケット化コントローラが経験的-ベルンシュタイン速度で正確なDPRMスコアを追跡することを示す。
抽出可能な最適化の仮定の下では、DPRMはランダムおよび信頼のみの順序よりもサンプル複雑さの優位性が得られる。
DPRMは、プレトレーニング、ポストトレーニング、テストタイムスケーリング、シングルセルマスク拡散における信頼性ベースのベースラインを改善し、特に難しい推論サブセットに強く依存する。
タンパク質、分子生成、DNA設計において、この効果はより多目的的である: オーダーアウェアの変異は、選択された構造的または断片的制約のあるメトリクスを著しく改善するが、全ての品質指標においてホストベースラインを均一に支配しない。
これらの結果から,拡散言語モデルの基本制御軸としてトークン順序付けを同定し,DPRMを汎用モジュールとして確立した。
コードはhttps://github.com/DakeBU/DPRM-DLLMで公開されている。
関連論文リスト
- Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models [52.61023005303122]
低信頼度再マッシングは、誘導配列分布のエントロピーを制約しながら、品質のプロキシを改善することを示す。
我々は,デコード時に,この分布をほぼ対象とする簡易なインディペンデント・ハスティングス・サンプリング器を開発した。
論文 参考訳(メタデータ) (2026-04-01T02:01:30Z) - Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Parallel Sampling from Masked Diffusion Models via Conditional Independence Testing [4.707859580472452]
仮面拡散モデル(MDM)は、離散テキスト生成のための自己回帰モデル(ARM)に代わる魅力的な代替手段を提供する。
シーケンシャルな左から右への生成ではなく、並列トークンサンプリングを可能にする。
本稿では,このトレードオフを再現するモデル非依存のサンプル装置PUNTを紹介する。
論文 参考訳(メタデータ) (2025-10-24T18:41:26Z) - DiffGRM: Diffusion-based Generative Recommendation Model [63.35379395455103]
ジェネレーティブレコメンデーション(GR)は、トークン化器を介して各項目をn桁のセマンティックID(SID)として表現する新興パラダイムである。
自己回帰デコーダをマスク付き離散拡散モデル(MDM)に置き換える拡散ベースGRモデルDiffGRMを提案する。
実験では、複数のデータセットに対する強力な生成的および差別的推奨ベースラインよりも一貫した利得を示す。
論文 参考訳(メタデータ) (2025-10-21T03:23:32Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - Order Independence With Finetuning [0.0]
大規模言語モデル(LLM)は多くのNLPタスクにおいて顕著な性能を示すが、しばしば順序依存を示す。
最近の研究は、指定されたトークンサブセットから注文情報を除去する手段として、SBP(Set-Based Prompting)を提案する。
我々は,SBPをトレーニングプロセスに統合し,これらの設定されたプロンプトをモデルのトレーニング多様体に"推進する"微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-03-30T15:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。