論文の概要: Future Policy Aware Preference Learning for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2509.19893v1
- Date: Wed, 24 Sep 2025 08:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.743598
- Title: Future Policy Aware Preference Learning for Mathematical Reasoning
- Title(参考訳): 数学的推論のための選好学習を意識した今後の政策
- Authors: Minjae Oh, Yunho Choi, Dongmin Choi, Yohan Jo,
- Abstract要約: 重要な課題は、好ましくないトラジェクトリと好ましくないトラジェクトリの間の大きなトークンの重複である。
本稿では,現在の政策を正規化期間における今後の政策に置き換えたFPA(Future Policy Aware)選好学習を提案する。
FPAは、SimPERで観測された最大の改善により、一貫したパフォーマンス向上を達成し、最大5.75%のパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 15.444539171776983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference learning methods such as Direct Preference Optimization (DPO) have become standard for Large Language Model (LLM) post-training, yet they are often ineffective for mathematical reasoning. A key challenge is the large token overlap between preferred and dispreferred trajectories; lowering the probability of dispreferred trajectories also reduces the probability of shared useful tokens, leading to over-penalization and overall performance collapse. As a mitigation, existing algorithms include the probability of a trajectory under the current policy as a regularization term, which decreases the effect of the gradient when the probability is low. However, by the time this effect takes hold, useful tokens may have already been over-penalized as the model has begun to degrade. To address this, we propose Future Policy Aware (FPA) preference learning, which replaces the current policy with a future policy in the regularization term. This future policy is estimated via lightweight, logit-space extrapolation from a reference model toward the current model. FPA enables safer training by preemptively regularizing potentially problematic gradients. We apply FPA to DPO, RPO, and SimPER and evaluate them on the MATH and GSM8K benchmarks. FPA yields consistent performance gains, with the largest improvements observed with SimPER, achieving gains of up to 5.75%. We demonstrate that FPA provides proactive regularization while preserving the probability of shared, useful mathematical tokens, and enables longer, degradation-free training with negligible computational overhead. We will release our code publicly upon publication.
- Abstract(参考訳): 直接選好最適化(DPO)のような選好学習手法は、Large Language Model(LLM)のポストトレーニングの標準となっているが、数学的な推論には有効ではないことが多い。
重要な課題は、優先トラジェクトリと非推奨トラジェクトリの間の大きなトークンの重複であり、非推奨トラジェクトリの確率を下げることで、共有された有用なトークンの確率も減少し、過剰な報酬化と全体的なパフォーマンスの崩壊につながる。
緩和法として、既存のアルゴリズムは、現在のポリシーの下で軌道の確率を正規化項として含み、確率が低いときに勾配の影響を減少させる。
しかし、この効果が保たれるまでには、有用なトークンはモデルが劣化し始めており、既に過払いされているかもしれない。
これを解決するために、我々は、現在の政策を正規化期間における将来の政策に置き換えるFPA(Future Policy Aware)選好学習を提案する。
この将来の方針は、参照モデルから現在のモデルへの軽量でロジトスペースの外挿によって推定される。
FPAは、潜在的な問題のある勾配を事前に規則化することで、より安全なトレーニングを可能にする。
DPO、RPO、SimPERにFPAを適用し、MATHおよびGSM8Kベンチマークで評価する。
FPAは、SimPERで観測された最大の改善により、一貫したパフォーマンス向上を達成し、最大5.75%のパフォーマンス向上を実現している。
我々は、FPAが共有された有用な数学的トークンの確率を保ちながら能動的正則化を提供し、無視可能な計算オーバーヘッドで、より長く、劣化のないトレーニングを可能にすることを実証した。
コードを公開して公開します。
関連論文リスト
- Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning [33.899779762210976]
大規模言語モデルの教師付き微調整(SFT)は、非政治的な学習問題と見なすことができる。
既存の方法では、ギャップを積極的に減らすのではなく、パッシブに更新するKLペナルティやクリッピングによってこの問題を軽減する。
本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:02:30Z) - GTPO: Trajectory-Based Policy Optimization in Large Language Models [42.60363805227946]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文 参考訳(メタデータ) (2025-08-05T08:15:01Z) - Reusing Trajectories in Policy Gradients Enables Fast Convergence [59.27926064817273]
政策勾配法 (PG) は効果的な強化学習アルゴリズムの一種である。
本稿では,古いトラジェクトリと新しいトラジェクトリを組み合わせたPGアルゴリズムであるRPG(Retrospective Policy Gradient)を提案する。
確立された仮定の下では、RPGは文献で最もよく知られたレートである$widetildeO(epsilon-1)$のサンプル複雑性を達成する。
論文 参考訳(メタデータ) (2025-06-06T15:42:15Z) - Enhancing PPO with Trajectory-Aware Hybrid Policies [6.938941097426891]
PPO(Proximal Policy Optimization)は、最先端のオンライン・ポリシー・アルゴリズムの1つである。
高分散と高サンプルの複雑さは、いまだにオン・ポリティクスのアルゴリズムにおいて重要な課題である。
本稿では,トラジェクトリ・リプレイバッファを用いて,近年のポリシーによって生成されるトラジェクトリを効率的に活用するハイブリッド・ポリシー・プロキシ・ポリシー・オプティマイズ(HP3O)を提案する。
論文 参考訳(メタデータ) (2025-02-21T22:00:13Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。