論文の概要: AAPO: Enhance the Reasoning Capabilities of LLMs with Advantage Momentum
- arxiv url: http://arxiv.org/abs/2505.14264v1
- Date: Tue, 20 May 2025 12:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.163025
- Title: AAPO: Enhance the Reasoning Capabilities of LLMs with Advantage Momentum
- Title(参考訳): AAPO: アドバンテージモメンタムによるLDMの推論能力の向上
- Authors: Jian Xiong, Jingbo Zhou, Jingyong Ye, Dejing Dou,
- Abstract要約: 大規模言語モデル(LLM)の推論能力を高める効果的なアプローチとして強化学習(RL)が登場している。
グループ相対的優位性推定は、値モデルへの依存性を排除したことでかなりの注目を集めている。
本稿では,モーメントに基づく推定手法によって強化された利点を用いて,クロスエントロピー損失を最適化する新しいRLアルゴリズムであるAdvantage-Augmented Policy Optimization (AAPO)を提案する。
- 参考スコア(独自算出の注目度): 45.135858299101386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as an effective approach for enhancing the reasoning capabilities of large language models (LLMs), especially in scenarios where supervised fine-tuning (SFT) falls short due to limited chain-of-thought (CoT) data. Among RL-based post-training methods, group relative advantage estimation, as exemplified by Group Relative Policy Optimization (GRPO), has attracted considerable attention for eliminating the dependency on the value model, thereby simplifying training compared to traditional approaches like Proximal Policy Optimization (PPO). However, we observe that exsiting group relative advantage estimation method still suffers from training inefficiencies, particularly when the estimated advantage approaches zero. To address this limitation, we propose Advantage-Augmented Policy Optimization (AAPO), a novel RL algorithm that optimizes the cross-entropy (CE) loss using advantages enhanced through a momentum-based estimation scheme. This approach effectively mitigates the inefficiencies associated with group relative advantage estimation. Experimental results on multiple mathematical reasoning benchmarks demonstrate the superior performance of AAPO.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は,大規模言語モデル(LLM)の推論能力を高めるための効果的な手法として,特に教師付き微調整(SFT)が,限られたチェーン・オブ・シント(CoT)データによって不足するシナリオにおいて出現している。
RLベースのポストトレーニング手法の中で、グループ相対的政策最適化(GRPO)が示すようなグループ相対的優位性推定は、価値モデルへの依存を排除し、PPO(Proximal Policy Optimization)のような従来のアプローチと比較してトレーニングを簡素化する。
しかし,提案手法では,評価値がゼロに近づいた場合,グループ相対的優位性推定法はトレーニングの非効率性に悩まされている。
この制限に対処するために,モーメントに基づく推定手法によって強化された利点を用いて,クロスエントロピー(CE)損失を最適化する新しいRLアルゴリズムであるAdvantage-Augmented Policy Optimization (AAPO)を提案する。
このアプローチは、グループ相対的優位推定に関連する非効率性を効果的に緩和する。
複数の数学的推論ベンチマークの実験結果は、AAPOの優れた性能を示している。
関連論文リスト
- Adaptive Group Policy Optimization: Towards Stable Training and Token-Efficient Reasoning [4.325768677318839]
本稿では,2つの単純かつ効果的な修正を含む適応グループ政策最適化(AGPO)を提案する。
実験により,本手法は推論ステップにおいてトークンを著しく少なく,より安定したトレーニングと同等あるいは優れたパフォーマンスを実現することが実証された。
論文 参考訳(メタデータ) (2025-03-20T08:48:57Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。