論文の概要: MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue
- arxiv url: http://arxiv.org/abs/2603.06194v1
- Date: Fri, 06 Mar 2026 12:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.589983
- Title: MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue
- Title(参考訳): MAPO:長期多段階対話のための混合アドバンテージポリシー最適化
- Authors: Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang,
- Abstract要約: マルチターン対話タスクは、進化するユーザ状態に対応するポリシーを必要とする。
アウトカムのみのトレーニングは、クレジットの割り当てを1つの軌道レベルの報酬に転換する。
我々は,MAPO という,批判のない効率的な強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.304129034500234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subjective multi-turn dialogue tasks, such as emotional support, require conversational policies that adapt to evolving user states and optimize long-horizon interaction quality. However, reinforcement learning (RL) for such settings remains challenging due to the absence of reliable process supervision. Outcome-only training collapses credit assignment across turns into a single trajectory-level reward, while naïve turn-level group sampling incurs prohibitive rollout costs in interactive environments. We propose a critic-free and efficient RL algorithm named MAPO that leverages dense process feedback from a judge model and propagates long-horizon effects through Monte Carlo returns. To stabilize optimization, we introduce a mixed advantage estimator that combines turn-level normalization with batch-level normalization, enabling fine-grained yet scalable credit assignment. Across multiple subjective dialogue benchmarks, including EMPA, EmoBench, and EQ-Bench, and model scales ranging from 7B to 32B, our method consistently improves both training stability and final performance over outcome-only GRPO and single-level normalization baselines. On EMPA, we improve rates by up to 9 points and increase dialogue scores by as much as +43.2 over the 7B base model. Despite training only on EMPA-style environments, our approach generalizes well, yielding consistent improvements on unseen emotional-intelligence benchmarks, including up to +4 points on EmoBench and +3.5 on EQ-Bench. Together, these results demonstrate that dense process supervision combined with mixed-level normalization enables effective and scalable RL for subjective, open-ended multi-turn dialogue.
- Abstract(参考訳): 感情的サポートのような主観的マルチターン対話タスクは、進化するユーザ状態に適応し、長期の相互作用品質を最適化する会話ポリシーを必要とする。
しかし,このような環境下での強化学習(RL)は,信頼性の高いプロセス管理が欠如しているため,依然として困難である。
アウトカムのみのトレーニングは、クレジットの割り当てを1つの軌道レベルの報酬に分解する一方、ターンレベルのグループサンプリングは、対話的な環境における不正なロールアウトコストを発生させる。
我々は,判断モデルから高密度なプロセスフィードバックを生かし,モンテカルロ・リターンによる長距離効果を伝搬する,批判のない効率的なRLアルゴリズムMAPOを提案する。
最適化を安定させるために、ターンレベルの正規化とバッチレベルの正規化を組み合わせた混合利点推定器を導入し、きめ細粒度でスケーラブルなクレジット割り当てを可能にした。
EMPA, EmoBench, EQ-Bench を含む複数の主観的対話ベンチマークと 7B から 32B までのモデルスケールにおいて,本手法は結果のみのGRPO と単一レベルの正規化ベースラインに対するトレーニング安定性と最終性能を一貫して改善する。
EMPAでは、7Bベースモデルよりも最大9ポイント向上し、対話スコアを最大43.2アップする。
EmoBenchでは最大4点,EQ-Benchでは+3.5点を含む,見知らぬ感情知能ベンチマークでは一貫した改善が得られた。
これらの結果から,混合レベル正規化と組み合わせた濃密なプロセス監視は,主観的かつオープンなマルチターン対話に有効かつスケーラブルなRLを実現することが示唆された。
関連論文リスト
- GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。