論文の概要: MAPO: Mixed Advantage Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.18849v3
- Date: Thu, 25 Sep 2025 01:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 12:02:33.933596
- Title: MAPO: Mixed Advantage Policy Optimization
- Title(参考訳): MAPO:混合アドバンテージポリシー最適化
- Authors: Wenke Huang, Quan Zhang, Yiyang Fang, Jian Liang, Xuankun Rong, Huanjin Yao, Guancheng Wan, Ke Liang, Wenwen He, Mingjun Li, Leszek Rutkowski, Mang Ye, Bo Du, Dacheng Tao,
- Abstract要約: 我々は、簡易かつ効果的なGRPO戦略、Mixed Advantage Policy Optimization (MAPO)を提案する。
その結果, 軌道の精度は異なることが判明し, 高精度な軌道を持つ試料の偏差の利点が示唆された。
- 参考スコア(独自算出の注目度): 120.96975697212065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reinforcement learning for foundation models, such as Group Relative Policy Optimization (GRPO), have significantly improved the performance of foundation models on reasoning tasks. Notably, the advantage function serves as a central mechanism in GRPO for ranking the trajectory importance. However, existing explorations encounter both advantage reversion and advantage mirror problems, which hinder the reasonable advantage allocation across different query samples. In this work, we propose an easy but effective GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the trajectory appears with different certainty and propose the advantage percent deviation for samples with high-certainty trajectories. Furthermore, we dynamically reweight the advantage function for samples with varying trajectory certainty, thereby adaptively configuring the advantage function to account for sample-specific characteristics. Comparison with related state-of-the-art methods, along with ablation studies on different advantage variants, validates the effectiveness of our approach.
- Abstract(参考訳): グループ相対政策最適化(GRPO)のような基礎モデルの強化学習の最近の進歩は、推論タスクにおける基礎モデルの性能を著しく改善している。
特に、有利関数は、軌跡の重要度をランク付けするためのGRPOの中心的なメカニズムとして機能する。
しかし、既存の探索では、利点の逆転と利点のミラーの問題の両方に直面しており、異なるクエリサンプル間の合理的な有利な割り当てを妨げている。
本研究では,簡易かつ効果的なGRPO戦略であるMixed Advantage Policy Optimization (MAPO)を提案する。
その結果, 軌道の精度は異なることが判明し, 高精度な軌道を持つ試料の偏差の利点が示唆された。
さらに, 異なる軌道の確実性を持つサンプルに対して, 利得関数を動的に再重み付けし, サンプル固有の特性を考慮し, 利得関数を適応的に設定する。
関連する最先端手法との比較と,異なる有利な変種に関するアブレーション研究を併用して,本手法の有効性を検証した。
関連論文リスト
- SetPO: Set-Level Policy Optimization for Diversity-Preserving LLM Reasoning [50.93295951454092]
本稿では,カーネル化類似性を用いたサンプル軌道上で定義された設定レベル多様性の目的について紹介する。
提案手法は,各サンプル軌跡に対する余剰余剰貢献を導出し,この目的を政策最適化のためのプラグイン・アドバンテージ・シェーピング用語として統合する。
様々なモデルスケールで実験を行い、提案アルゴリズムの有効性を示し、様々なベンチマークでPass@1とPass@Kの双方において、強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-01T07:13:20Z) - AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - APLOT: Robust Reward Modeling via Adaptive Preference Learning with Optimal Transport [37.21695864040979]
報酬モデル(RM)は、強化学習(Reinforcement Learning)を通じて、大規模言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
本稿では,適応的マージン機構によりBT系RMを効果的に強化する手法を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:13:28Z) - PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning [6.050409262589219]
本稿では,アドバンスト参照アンカーとデータ事前サンプリングによって強化された効率的な強化学習手法であるPVPOを提案する。
本手法は,グループ内比較によって生じる累積バイアスを効果的に補正し,トレーニング中のロールアウト数への依存を著しく低減する。
このアプローチは,複数のタスクにまたがる堅牢な一般化を示すだけでなく,さまざまなスケールのモデルにまたがるスケーラブルなパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-28T09:18:26Z) - Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - AAPO: Enhance the Reasoning Capabilities of LLMs with Advantage Momentum [45.135858299101386]
大規模言語モデル(LLM)の推論能力を高める効果的なアプローチとして強化学習(RL)が登場している。
グループ相対的優位性推定は、値モデルへの依存性を排除したことでかなりの注目を集めている。
本稿では,モーメントに基づく推定手法によって強化された利点を用いて,クロスエントロピー損失を最適化する新しいRLアルゴリズムであるAdvantage-Augmented Policy Optimization (AAPO)を提案する。
論文 参考訳(メタデータ) (2025-05-20T12:13:44Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Meta-Learning Objectives for Preference Optimization [39.15940594751445]
より単純なベンチマークにおいて、選好最適化アルゴリズムの有効性についての洞察を得ることが可能であることを示す。
我々はミラー優先最適化(MPO)と呼ばれるミラー降下に基づく新しいPOアルゴリズム群を提案する。
論文 参考訳(メタデータ) (2024-11-10T19:11:48Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。