論文の概要: Drifting Objectives for Refining Discrete Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.19470v1
- Date: Tue, 19 May 2026 07:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.185463
- Title: Drifting Objectives for Refining Discrete Diffusion Language Models
- Title(参考訳): 離散拡散言語モデルの精製のためのドリフト対象
- Authors: Daisuke Oba, Hiroki Furuta, Naoaki Okazaki,
- Abstract要約: TokenDriftは、カテゴリー予測をソフトトーケンの特徴に引き上げる漂流目標である。
一致した継続ベースラインよりも固定NFE生成品質が向上する。
MDLMでは89%、DUOでは86%減少する。
- 参考スコア(独自算出の注目度): 23.931675509910047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion language models (DDLMs) generate text by iteratively denoising categorical token sequences, while recent drifting methods for continuous generators suggest that part of this sampling-time correction can instead be absorbed into training through an anti-symmetric fixed-point objective. We study how to transfer this principle to DDLMs, where the main challenge is the interface with discrete text: hard token samples are non-differentiable, and categorical predictions do not directly provide continuous samples to drift. We formulate TokenDrift, a drifting objective that lifts categorical predictions to soft-token features, applies anti-symmetric drifting in a frozen semantic space, and backpropagates the resulting stop-gradient feature target to DDLM logits. In controlled continual-training experiments with masked and uniform-state diffusion backbones, TokenDrift improves fixed-NFE generation quality over matched continuation baselines, reducing Gen.-PPL at 4 NFEs by 89% on MDLM and 86% on DUO. These results suggest that drifting can provide a practical refinement objective for DDLMs.
- Abstract(参考訳): 離散拡散言語モデル(DDLM)は、カテゴリー的トークン列を反復的に記述することでテキストを生成するが、最近の連続生成器のドリフト手法では、このサンプリング時間補正の一部は、代わりに非対称な固定点の目的によってトレーニングに吸収可能であることを示唆している。
我々はこの原理をDDLMに転送する方法について研究し、そこではハードトークンのサンプルは非微分可能であり、分類学的予測はドリフトに連続的なサンプルを直接提供しない。
TokenDriftは,ソフトトキンの特徴に対してカテゴリー的予測を持ち上げ,凍結したセマンティック空間に反対称なドリフトを適用し,結果として生じる停止段階の特徴目標をDDLMロジットにバックプロパゲートする。
マスクおよび均一状態拡散バックボーンを用いた連続トレーニング制御実験において、TokenDriftは一致した継続ベースラインよりも固定NFE生成品質を改善し、Genを減少させる。
-PPLは4NFEで,MDLMでは89%,DUOでは86%であった。
これらの結果から,ドリフトはDDLMの実用化に有効であることが示唆された。
関連論文リスト
- Sobolev Regularized MMD Gradient Flow [22.929984194375805]
勾配規則化MDD流の正規化変種を提案する。
提案した正規化は、平均核平均埋め込みの違いを緩和する。
提案した流れの重要な特徴は、両方のサンプリング(非正規化対象分布からの)に適用可能であることである。
論文 参考訳(メタデータ) (2026-05-12T09:58:19Z) - Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models [65.89572755202245]
拡散言語モデル(DLM)は、より強力なグローバル認識と高い並列生成を提供する。
標準負のエビデンス下界(NELBO)に基づく教師付き微調整後のDLMは非効率である。
そこで本研究では,学習を推論の容易かつハードな構造に整合させる,自己蒸留軌道に基づくポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:39:06Z) - Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Training-Free Distribution Adaptation for Diffusion Models via Maximum Mean Discrepancy Guidance [17.353524034156205]
MMD Guidanceは、生成したサンプルと参照データセットの間の最大平均離散度(MMD)の勾配で逆拡散プロセスを強化する。
当社のフレームワークは,製品カーネルによる条件付き生成モデルにおけるアクシデント対応に自然に拡張する。
合成および実世界のベンチマーク実験により、MDD Guidanceはサンプルの忠実さを保ちながら分布アライメントを達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-13T09:42:57Z) - Constrained Adaptive Rejection Sampling [27.579645342312674]
言語モデル(LM)は、生成した出力が厳密な意味的制約や構文的制約を満たす必要があるアプリケーションでますます使われている。
既存の制約付き生成へのアプローチは、スペクトルに沿って低下する: 欲求的制約付き復号法は、復号時の有効性を強制するが、LMの分布を歪ませる。
本稿では、分布歪みを伴わないRSの試料効率を厳密に改善するアプローチである、適応型サンプリング(CARS)を提案する。
論文 参考訳(メタデータ) (2025-10-02T11:17:26Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Diffusion-PINN Sampler [6.656265182236135]
物理インフォームドニューラルネットワーク(PINN)を用いて,基礎となるSDEの対数密度の制御偏微分方程式を解くことにより,ドリフト項を推定する新しい拡散型サンプリングアルゴリズムを提案する。
DPSの収束保証を確立するために、PINN残差損失によって対数密度近似の誤差を制御できることを証明した。
論文 参考訳(メタデータ) (2024-10-20T09:02:16Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。