論文の概要: GTPO: Trajectory-Based Policy Optimization in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.03772v1
- Date: Tue, 05 Aug 2025 08:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.386203
- Title: GTPO: Trajectory-Based Policy Optimization in Large Language Models
- Title(参考訳): GTPO:大規模言語モデルにおける軌道に基づくポリシー最適化
- Authors: Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino,
- Abstract要約: 政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
- 参考スコア(独自算出の注目度): 45.799380822683034
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Policy-based optimizations are widely adopted today for the training and alignment of language models, where one of the most recent and effective approaches is Group-relative Policy Optimization (GRPO). In this paper, we reveals and analyze two major limitations of GRPO: (i) tokens frequently appear in completions with both positive and negative rewards, leading to conflicting gradient updates that can reduce their output probability, even though can be essential for maintaining proper structure; (ii) negatively rewarded completions may penalize confident responses and shift model decisions toward unlikely tokens, progressively flattening the output distribution and degrading learning. To address these issues and provide a more stable and effective policy optimization strategy, we introduce GTPO (Group-relative Trajectory-based Policy Optimization), which identifies conflict tokens, tokens appearing in the same position across completions with opposite rewards, protects them by skipping negative updates, while amplifying positive ones. To further prevent policy collapse, GTPO filters out completions whose entropy exceeds a provable threshold. Unlike GRPO, GTPO does not rely on KL-divergence regularization, eliminating the need for a reference model during training, while still ensuring greater training stability and improved performance, validated through multiple experiments on GSM8K, MATH and AIME 2024 benchmarks.
- Abstract(参考訳): 政策ベースの最適化は現在、言語モデルのトレーニングとアライメントに広く採用されており、最も最近かつ効果的なアプローチの1つがグループ相対政策最適化(GRPO)である。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
i) トークンは、正と負の両方の報酬を伴う完了時に頻繁に現れ、適切な構造を維持するのに必須であるにもかかわらず、出力確率を減少させるような、矛盾する勾配更新につながる。
負の報酬を受けた完了は、自信のある応答を罰し、モデル決定を不可能なトークンにシフトさせ、出力分布を徐々にフラットにし、学習を劣化させます。
これらの問題に対処し、より安定的で効果的な政策最適化戦略を提供するため、GTPO(Group-relative Trajectory-based Policy Optimization)を導入する。
政策崩壊をさらに防止するため、GTPOは証明可能なしきい値を超えるエントロピーをフィルタリングする。
GRPOとは異なり、GTPOはKL分割正規化に頼らず、トレーニング中の参照モデルの必要性を排除し、GSM8K、MATH、AIME 2024ベンチマークの複数の実験を通じて、トレーニングの安定性と性能の向上を確保している。
関連論文リスト
- On the Theory and Practice of GRPO: A Trajectory-Corrected Approach with Fast Convergence [2.8165669455824696]
Group Relative Policy Optimizationは、批判のない強化学習アルゴリズムである。
GRPO更新規則は,現行の方針よりも旧方針の政策勾配を推定する。
軌道レベルの重要度補正 GRPO という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:01:19Z) - Truncated Proximal Policy Optimization [43.965892659920364]
Truncated Proximal Policy Optimization (T-PPO)は、ポリシー更新と長さ制限された応答生成を合理化することで、トレーニング効率を向上させる。
不完全な応答から導かれる利点推定のための拡張一般化アドバンテージ推定(EGAE)を提案する。
我々は,32Bベースモデルを用いたAIME 2024におけるT-PPOの有効性と有効性を示した。
論文 参考訳(メタデータ) (2025-06-18T01:21:38Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - Accelerating Proximal Policy Optimization Learning Using Task Prediction for Solving Environments with Delayed Rewards [8.455772877963792]
オフラインポリシとオンラインPPOポリシを組み合わせたハイブリッドポリシアーキテクチャと,TWTL(Time Window Temporal Logic)を用いた報酬形成機構の2つを導入する。
我々は,逆振り子と月面着陸機環境に関する広範囲な実験を通じて,我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-11-26T20:22:31Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。