論文の概要: MAPO: Mixed Advantage Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.18849v3
- Date: Thu, 25 Sep 2025 01:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 12:02:33.933596
- Title: MAPO: Mixed Advantage Policy Optimization
- Title(参考訳): MAPO:混合アドバンテージポリシー最適化
- Authors: Wenke Huang, Quan Zhang, Yiyang Fang, Jian Liang, Xuankun Rong, Huanjin Yao, Guancheng Wan, Ke Liang, Wenwen He, Mingjun Li, Leszek Rutkowski, Mang Ye, Bo Du, Dacheng Tao,
- Abstract要約: 我々は、簡易かつ効果的なGRPO戦略、Mixed Advantage Policy Optimization (MAPO)を提案する。
その結果, 軌道の精度は異なることが判明し, 高精度な軌道を持つ試料の偏差の利点が示唆された。
- 参考スコア(独自算出の注目度): 120.96975697212065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reinforcement learning for foundation models, such as Group Relative Policy Optimization (GRPO), have significantly improved the performance of foundation models on reasoning tasks. Notably, the advantage function serves as a central mechanism in GRPO for ranking the trajectory importance. However, existing explorations encounter both advantage reversion and advantage mirror problems, which hinder the reasonable advantage allocation across different query samples. In this work, we propose an easy but effective GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the trajectory appears with different certainty and propose the advantage percent deviation for samples with high-certainty trajectories. Furthermore, we dynamically reweight the advantage function for samples with varying trajectory certainty, thereby adaptively configuring the advantage function to account for sample-specific characteristics. Comparison with related state-of-the-art methods, along with ablation studies on different advantage variants, validates the effectiveness of our approach.
- Abstract(参考訳): グループ相対政策最適化(GRPO)のような基礎モデルの強化学習の最近の進歩は、推論タスクにおける基礎モデルの性能を著しく改善している。
特に、有利関数は、軌跡の重要度をランク付けするためのGRPOの中心的なメカニズムとして機能する。
しかし、既存の探索では、利点の逆転と利点のミラーの問題の両方に直面しており、異なるクエリサンプル間の合理的な有利な割り当てを妨げている。
本研究では,簡易かつ効果的なGRPO戦略であるMixed Advantage Policy Optimization (MAPO)を提案する。
その結果, 軌道の精度は異なることが判明し, 高精度な軌道を持つ試料の偏差の利点が示唆された。
さらに, 異なる軌道の確実性を持つサンプルに対して, 利得関数を動的に再重み付けし, サンプル固有の特性を考慮し, 利得関数を適応的に設定する。
関連する最先端手法との比較と,異なる有利な変種に関するアブレーション研究を併用して,本手法の有効性を検証した。
関連論文リスト
- PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning [6.050409262589219]
本稿では,アドバンスト参照アンカーとデータ事前サンプリングによって強化された効率的な強化学習手法であるPVPOを提案する。
本手法は,グループ内比較によって生じる累積バイアスを効果的に補正し,トレーニング中のロールアウト数への依存を著しく低減する。
このアプローチは,複数のタスクにまたがる堅牢な一般化を示すだけでなく,さまざまなスケールのモデルにまたがるスケーラブルなパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-28T09:18:26Z) - Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - AAPO: Enhance the Reasoning Capabilities of LLMs with Advantage Momentum [45.135858299101386]
大規模言語モデル(LLM)の推論能力を高める効果的なアプローチとして強化学習(RL)が登場している。
グループ相対的優位性推定は、値モデルへの依存性を排除したことでかなりの注目を集めている。
本稿では,モーメントに基づく推定手法によって強化された利点を用いて,クロスエントロピー損失を最適化する新しいRLアルゴリズムであるAdvantage-Augmented Policy Optimization (AAPO)を提案する。
論文 参考訳(メタデータ) (2025-05-20T12:13:44Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Meta-Learning Objectives for Preference Optimization [39.15940594751445]
より単純なベンチマークにおいて、選好最適化アルゴリズムの有効性についての洞察を得ることが可能であることを示す。
我々はミラー優先最適化(MPO)と呼ばれるミラー降下に基づく新しいPOアルゴリズム群を提案する。
論文 参考訳(メタデータ) (2024-11-10T19:11:48Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。