論文の概要: d-TreeRPO: Towards More Reliable Policy Optimization for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2512.09675v1
- Date: Wed, 10 Dec 2025 14:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.551356
- Title: d-TreeRPO: Towards More Reliable Policy Optimization for Diffusion Language Models
- Title(参考訳): d-TreeRPO:拡散言語モデルのためのより信頼性の高いポリシー最適化を目指して
- Authors: Leyi Pan, Shuchang Tao, Yunpeng Zhai, Zheyu Fu, Liancheng Fang, Minghua He, Lingzhe Zhang, Zhaoyang Liu, Bolin Ding, Aiwei Liu, Lijie Wen,
- Abstract要約: emphd-TreeRPOは、dLLMのための信頼できる強化学習フレームワークである。
我々は,emphd-TreeRPOが複数の推論ベンチマークで大きく向上していることを示す。
- 参考スコア(独自算出の注目度): 45.27333046908981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable reinforcement learning (RL) for diffusion large language models (dLLMs) requires both accurate advantage estimation and precise estimation of prediction probabilities. Existing RL methods for dLLMs fall short in both aspects: they rely on coarse or unverifiable reward signals, and they estimate prediction probabilities without accounting for the bias relative to the true, unbiased expected prediction probability that properly integrates over all possible decoding orders. To mitigate these issues, we propose \emph{d}-TreeRPO, a reliable RL framework for dLLMs that leverages tree-structured rollouts and bottom-up advantage computation based on verifiable outcome rewards to provide fine-grained and verifiable step-wise reward signals. When estimating the conditional transition probability from a parent node to a child node, we theoretically analyze the estimation error between the unbiased expected prediction probability and the estimate obtained via a single forward pass, and find that higher prediction confidence leads to lower estimation error. Guided by this analysis, we introduce a time-scheduled self-distillation loss during training that enhances prediction confidence in later training stages, thereby enabling more accurate probability estimation and improved convergence. Experiments show that \emph{d}-TreeRPO outperforms existing baselines and achieves significant gains on multiple reasoning benchmarks, including +86.2 on Sudoku, +51.6 on Countdown, +4.5 on GSM8K, and +5.3 on Math500. Ablation studies and computational cost analyses further demonstrate the effectiveness and practicality of our design choices.
- Abstract(参考訳): 拡散大言語モデル(dLLM)に対する信頼性強化学習(RL)には,精度の高い優位性推定と予測確率の正確な推定の両方が必要である。
既存のdLLMのRL法は、粗い信号や未検証の報奨信号に頼り、真で偏りのない予測確率を考慮せずに予測確率を推定し、全ての可能な復号順序を適切に統合する。
これらの問題を緩和するために,木構造ロールアウトとボトムアップベネフィット計算を利用したdLLMのための信頼性の高いRLフレームワークである \emph{d}-TreeRPO を提案する。
親ノードから子ノードへの条件遷移確率を推定すると、理論的には、偏りのない予測確率と1つの前方通過で得られた推定との推定誤差を解析し、高い予測信頼度が低い推定誤差につながることを確認する。
この分析によって、後続の訓練段階における予測信頼度を高め、より正確な確率推定と収束性の向上を可能にする、トレーニング中の時間スケジュールの自己蒸留損失を導入する。
実験の結果、\emph{d}-TreeRPO は既存のベースラインより優れており、Sudoku の +86.2、Countdown の +51.6、GSM8K の +4.5、Math500 の +5.3 など、複数の推論ベンチマークで大幅に向上している。
アブレーション研究と計算コスト分析は、我々の設計選択の有効性と実用性をさらに示している。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Improving Prediction Certainty Estimation for Reliable Early Exiting via Null Space Projection [16.838728310658105]
本稿では,Certainty-Aware Probability (CAP)スコアに基づく新しい早期退避手法を提案する。
本研究では,各タスクの平均高速化率は2.19倍であり,性能劣化は無視できることを示す。
論文 参考訳(メタデータ) (2025-06-08T05:08:34Z) - Always Tell Me The Odds: Fine-grained Conditional Probability Estimation [37.950889606305836]
文脈条件付き命題のきめ細かい確率推定のための最先端モデルを提案する。
提案手法は,既存の微調整法とプロンプト法を大きなマージンで一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-05-02T21:33:18Z) - Efficient distributional regression trees learning algorithms for calibrated non-parametric probabilistic forecasts [1.0108345815812638]
回帰の文脈では、条件平均を推定する代わりに、出力の予測間隔を生成することでこれを実現できる。
本稿では, WIS や CRPS の損失関数の確率回帰木を学習するための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:39:35Z) - Probabilistic Scores of Classifiers, Calibration is not Enough [0.32985979395737786]
二項分類タスクでは、確率的予測の正確な表現が実世界の様々な応用に不可欠である。
本研究では,予測スコアと真の確率分布の一致を優先するアプローチを強調した。
その結果,従来の校正基準の限界が明らかとなり,重要な意思決定のための予測モデルの信頼性を損なう可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-06T19:53:00Z) - When Rigidity Hurts: Soft Consistency Regularization for Probabilistic
Hierarchical Time Series Forecasting [69.30930115236228]
確率的階層的時系列予測は時系列予測の重要な変種である。
ほとんどの手法は点予測に焦点を絞っており、確率的確率分布を十分に調整していない。
ProFHiTは,階層全体の予測分布を共同でモデル化する完全確率的階層予測モデルである。
論文 参考訳(メタデータ) (2022-06-16T06:13:53Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。