Fugu-MT 論文翻訳(概要): RePO: Replay-Enhanced Policy Optimization

論文の概要: RePO: Replay-Enhanced Policy Optimization

arxiv url: http://arxiv.org/abs/2506.09340v1
Date: Wed, 11 Jun 2025 02:44:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:02.238298
Title: RePO: Replay-Enhanced Policy Optimization
Title（参考訳）: RePO: Replay-Enhanced Policy Optimization
Authors: Siheng Li, Zhanhui Zhou, Wai Lam, Chao Yang, Chaochao Lu,
Abstract要約: Replay-Enhanced Policy Optimization (RePO)を導入し、リプレイバッファからオフポリシーサンプルを検索する。 RePOはQwen2.5-Math-1.5BとQwen3-1.7Bでそれぞれ18.4ドル、Qwen2.5-Math-1.5Bでは4.1ドルという絶対的な平均的なパフォーマンス向上を達成した。 RePOは計算コストを15%引き上げ、Qwen3-1.7Bの効率的な最適化手順を48%引き上げる。
参考スコア（独自算出の注目度）: 41.51771034631632
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) is vital for optimizing large language models (LLMs). Recent Group Relative Policy Optimization (GRPO) estimates advantages using multiple on-policy outputs per prompt, leading to high computational costs and low data efficiency. To address this, we introduce Replay-Enhanced Policy Optimization (RePO), which leverages diverse replay strategies to retrieve off-policy samples from a replay buffer, allowing policy optimization based on a broader and more diverse set of samples for each prompt. Experiments on five LLMs across seven mathematical reasoning benchmarks demonstrate that RePO achieves absolute average performance gains of $18.4$ and $4.1$ points for Qwen2.5-Math-1.5B and Qwen3-1.7B, respectively, compared to GRPO. Further analysis indicates that RePO increases computational cost by $15\%$ while raising the number of effective optimization steps by $48\%$ for Qwen3-1.7B, with both on-policy and off-policy sample numbers set to $8$. The repository can be accessed at https://github.com/SihengLi99/RePO.
Abstract（参考訳）: 強化学習(RL)は,大規模言語モデル(LLM)の最適化に不可欠である。最近のグループ相対政策最適化(GRPO)は、複数のオン・ポリシー・アウトプットを用いて利点を推定し、高い計算コストと低いデータ効率をもたらす。そこで本稿では,Replay-Enhanced Policy Optimization (RePO)を導入し,各プロンプトに対してより広範な,より多様なサンプルセットに基づいたポリシ最適化を実現する。 7つの数学的推論ベンチマークによる5つの LLM の実験では、RePO は GRPO と比較して Qwen2.5-Math-1.5B と Qwen3-1.7B のそれぞれが 18.4$ と 4.1$ の絶対的な平均性能向上を達成した。さらに分析したところ、RePOはQwen3-1.7Bの効率的な最適化ステップの数を4,8\%引き上げて計算コストを$15\%増加させ、オン・ポリティクスとオフ・ポリティクスの両方のサンプル番号を$8に設定している。リポジトリはhttps://github.com/SihengLi99/RePOでアクセスすることができる。

関連論文リスト

Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions [0.5416466085090772]
emphQuantile Reward Policy Optimization (QRPO)を導入する。 QRPO は KL-正則化 RL 目的の閉形式解への回帰を可能にするために量子的報酬を使用する。チャットとコーディングの評価において、一貫して最高のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-10T17:56:24Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。 CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文参考訳（メタデータ） (2025-03-28T11:30:05Z)
RePO: ReLU-based Preference Optimization [47.87283407390014]
本稿では,ReLUに基づくPreference Optimization (RePO)を提案する。 RePOは、ロジスティック重み付けが二項しきい値に崩壊するSimPOの制限ケース(「infty$」の略)として特徴付けられる。 AlpacaEval 2 と Arena-Hard の実証結果は、RePO が複数のベースモデルで DPO と SimPO を上回っていることを示している。
論文参考訳（メタデータ） (2025-03-10T15:11:07Z)
MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。 Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文参考訳（メタデータ） (2024-12-13T14:18:58Z)
You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。 ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文参考訳（メタデータ） (2022-01-31T20:26:56Z)
Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。 OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文参考訳（メタデータ） (2019-12-12T08:40:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。