論文の概要: Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.13935v1
- Date: Wed, 13 May 2026 16:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.427838
- Title: Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models
- Title(参考訳): モード探索RLを超えて:拡散言語モデルのための軌道ベース後訓練
- Authors: Saba Ahmadi, Prasanna Parthasarathi, Yufei Cui,
- Abstract要約: TraFLは、凍結参照モデルに固定された報酬型ターゲット分布に対するポリシーを訓練する軌道バランスの目標である。
拡散互換のシーケンスレベルサロゲートと学習したプロンプト依存正規化を備えた拡散言語モデルに対して、これを実用的なものにする。
- 参考スコア(独自算出の注目度): 14.588291638328329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models are a promising alternative to autoregressive models, yet post-training methods for them largely adapt reward-maximizing objectives. We identify a central failure mode in this setting we call trajectory locking: sampled reward-driven updates over-concentrate probability mass onto a narrow set of denoising paths, reducing coverage of alternative correct solutions under repeated sampling. To address this, we propose TraFL (Trajectory Flow baLancing), a trajectory-balance objective that trains the policy toward a reward-tilted target distribution anchored to a frozen reference model. We make this practical for diffusion language models with a diffusion-compatible sequence-level surrogate and a learned prompt-dependent normalization. Across mathematical reasoning and code generation benchmarks, TraFL is the only evaluated post-training method that improves over the base model in every benchmark-length setting, with gains that persist as the sampling budget increases. The improvements transfer to held-out evaluations: TraFL stays above the base model on Minerva Math and is the strongest method on every LiveCodeBench difficulty split.
- Abstract(参考訳): 拡散言語モデルは自己回帰モデルに代わる有望な代替手段である。
この設定において、中心的な障害モードをトラジェクトリ・ロックと呼ぶ: サンプリングされた報酬駆動の更新は、特定の特定経路の狭いセットに過度に集中し、繰り返しサンプリングする際の代替正解のカバレッジを減少させる。
そこで本研究では,冷蔵基準モデルに固定された報奨型目標分布に対する政策を訓練する軌道バランス目標であるTraFL(Trajectory Flow baLancing)を提案する。
拡散互換のシーケンスレベルサロゲートと学習したプロンプト依存正規化を備えた拡散言語モデルに対して、これを実用的なものにする。
数学的推論とコード生成ベンチマーク全体にわたって、TraFLは、ベンチマーク長設定毎にベースモデルよりも改善される唯一の評価後トレーニング手法であり、サンプリング予算が増加するにつれてゲインが持続する。
TraFLはMinerva Mathのベースモデルより上にあり、LiveCodeBenchの難易度を分割する上で最強のメソッドです。
関連論文リスト
- Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models [65.89572755202245]
拡散言語モデル(DLM)は、より強力なグローバル認識と高い並列生成を提供する。
標準負のエビデンス下界(NELBO)に基づく教師付き微調整後のDLMは非効率である。
そこで本研究では,学習を推論の容易かつハードな構造に整合させる,自己蒸留軌道に基づくポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:39:06Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - TransFusion: Covariate-Shift Robust Transfer Learning for High-Dimensional Regression [11.040033344386366]
対象タスクの学習性能を限定的なサンプルで向上させるため, 新規な融合正規化器を用いた2段階の手法を提案する。
対象モデルの推定誤差に対して、漸近的境界が提供される。
提案手法を分散設定に拡張し,事前学習ファインタニング戦略を実現する。
論文 参考訳(メタデータ) (2024-04-01T14:58:16Z) - Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - Stable Target Field for Reduced Variance Score Estimation in Diffusion
Models [5.9115407007859755]
拡散モデルは、固定された前方拡散過程を反転させてサンプルを生成する。
このような分散の源泉は、中間雑音分散スケールの取り扱いにあると論じる。
より安定したトレーニングターゲットとして重み付けされた条件スコアを計算するために使用する参照バッチを組み込むことにより、この問題を修復することを提案する。
論文 参考訳(メタデータ) (2023-02-01T18:57:01Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。