論文の概要: Planner Aware Path Learning in Diffusion Language Models Training
- arxiv url: http://arxiv.org/abs/2509.23405v1
- Date: Sat, 27 Sep 2025 16:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.207588
- Title: Planner Aware Path Learning in Diffusion Language Models Training
- Title(参考訳): 拡散言語モデル学習におけるプランナー認識経路学習
- Authors: Fred Zhangzhi Peng, Zachary Bezemek, Jarrid Rector-Brooks, Shuibai Zhang, Anru R. Zhang, Michael Bronstein, Avishek Joey Bose, Alexander Tong,
- Abstract要約: Planner Aware Path Learning (PAPL)は、標準的なマスク付き離散拡散損失の簡易かつ効果的な修正である。
PAPLは、タンパク質配列モデリングにおける40%の相対的なゲインを含む、ドメイン間で一貫した改善を提供する。
- 参考スコア(独自算出の注目度): 44.82400021679714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models have emerged as a powerful alternative to autoregressive models, enabling fast inference through flexible and parallel generation paths. This flexibility is enabled by new sampling strategies, or planners, that iteratively choose where to denoise along the sequence rather than sampling uniformly at random. However, by modifying reverse paths, planners introduce a mismatch between the uniformly random denoising paths used during training and the planning-based paths used at inference. In this work, we systematically investigate this mismatch and theoretically show that the standard discrete diffusion training evidence lower bound (ELBO) does not accurately describe a denoiser under non-uniform planning. To bridge this gap, we derive a new Planned Evidence Lower Bound (P-ELBO) that directly incorporates planner-based reverse dynamics into the training objective. Building on this, we propose Planner Aware Path Learning (PAPL), a simple and effective modification of the standard masked discrete diffusion loss that aligns training and inference under planned denoisers. Empirically, PAPL delivers consistent improvements across domains, including a 40% relative gain in protein sequence modeling, up to a 4x improvement in MAUVE for text generation, and a 23% relative gain in HumanEval pass@10 for code generation.
- Abstract(参考訳): 拡散言語モデルは自己回帰モデルの強力な代替として登場し、フレキシブルおよび並列な生成経路を通じて高速な推論を可能にする。
この柔軟性は、新しいサンプリング戦略(あるいはプランナー)によって実現され、ランダムにサンプリングするよりも、シークエンスに沿ってデノネーズする場所を反復的に選択する。
しかし、逆経路を変更することで、プランナーはトレーニング中に使用する一様無作為経路と、推論時に使用する計画に基づく経路とのミスマッチを導入する。
本研究では,このミスマッチを系統的に検討し,標準離散拡散訓練証拠(ELBO)が非一様計画下でのデノイザーを正確に記述していないことを理論的に示す。
このギャップを埋めるために、プランナーに基づく逆ダイナミクスを直接学習目的に組み込む新しいプランデンス低境界(P-ELBO)を導出する。
提案手法は,学習と推論を計画的認知下で整合させる,標準的なマスク付き離散拡散損失を簡易かつ効果的に修正したプランナー認識パス学習(PAPL)を提案する。
実証的にPAPLは、タンパク質配列モデリングの40%の相対的な向上、テキスト生成のMAUVEの最大4倍の改善、コード生成のHumanEval pass@10の23%の相対的な向上など、ドメイン間で一貫した改善を実現している。
関連論文リスト
- MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - Prior-Guided Diffusion Planning for Offline Reinforcement Learning [4.760537994346813]
Prior Guidance (PG) は、標準ガウスの拡散モデルを置き換える新しいサンプリングフレームワークである。
PGは拡散モデル自体の費用対効果を伴わない高値軌道を直接生成する。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。