論文の概要: EAPO: Enhancing Policy Optimization with On-Demand Expert Assistance
- arxiv url: http://arxiv.org/abs/2509.23730v1
- Date: Sun, 28 Sep 2025 08:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.406494
- Title: EAPO: Enhancing Policy Optimization with On-Demand Expert Assistance
- Title(参考訳): EAPO: オンデマンド専門家支援による政策最適化の強化
- Authors: Siyao Song, Cong Ma, Zhihao Cheng, Shiye Lei, Minghao Li, Ying Zeng, Huaixiao Tou, Kai Jia,
- Abstract要約: 大規模言語モデル (LLM) は、最近、検証可能な報酬の下で強化学習 (RL) で最適化された場合、推論において進歩している。
本稿では,外部の専門家とのマルチターンインタラクションを取り入れた新しいRLフレームワークEAPOを提案する。
EAPOは、いつ、どのように専門家に相談するかを適応的に決定し、よりリッチな報酬信号とより信頼性の高い推論軌跡を得る政策を奨励する。
- 参考スコア(独自算出の注目度): 19.21616215817727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently advanced in reasoning when optimized with reinforcement learning (RL) under verifiable rewards. Existing methods primarily rely on outcome-based supervision to strengthen internal LLM reasoning, often leading to inefficient exploration and sparse rewards. To mitigate this issue, we propose Expert-Assisted Policy Optimization (EAPO), a novel RL framework that enhances exploration by incorporating multi-turn interactions with external experts during training. Unlike prior methods, where policies reason in isolation, EAPO incentivizes the policy to adaptively determine when and how to consult experts, yielding richer reward signals and more reliable reasoning trajectories. External assistance ultimately internalizes expert knowledge into the policy model, amplifying the model's inherent reasoning capabilities. During evaluation, the policy model has been well-optimized to solve questions independently, producing improved reasoning paths and more accurate solutions. Experiments on mathematical reasoning benchmarks, including AIME 2024, AIME 2025, and AIMO 2025, show that EAPO consistently outperforms expert-assisted workflow, expert-distilled models, and RL baselines, with an average gain of 5 points over self-exploratory models.
- Abstract(参考訳): 大規模言語モデル (LLM) は、最近、検証可能な報酬の下で強化学習 (RL) で最適化された場合、推論において進歩している。
既存の手法は主に、内部のLCM推論を強化するために結果に基づく監督に依存しており、しばしば非効率な探索とスパース報酬につながる。
この問題を軽減するため,訓練中に外部の専門家とのマルチターンインタラクションを取り入れた新たなRLフレームワークであるExpert-Assisted Policy Optimization (EAPO)を提案する。
政策が孤立している従来の方法とは異なり、EAPOは専門家にいつ、どのように相談するかを適応的に決定し、よりリッチな報酬信号とより信頼性の高い推論軌道を与える政策を動機付けている。
外部支援は、最終的に専門家の知識をポリシーモデルに内部化し、モデル固有の推論能力を増幅する。
評価期間中、ポリシーモデルは独立して問題解決に最適化され、より良い推論経路とより正確な解が生み出された。
AIME 2024、AIME 2025、AIMO 2025などの数学的推論ベンチマークの実験は、EAPOが専門家支援ワークフロー、エキスパート蒸留モデル、RLベースラインを一貫して上回り、自己探索モデルよりも平均5ポイント上昇していることを示している。
関連論文リスト
- Provable and Practical In-Context Policy Optimization for Self-Improvement [49.670847804409874]
本研究では,モデルが推論における複数ラウンドの自己回帰によって解答を改善するテスト時間スケーリングについて検討する。
In-Context Policy Optimization (ICPO)を導入し、エージェントはパラメータを変更することなく、自己評価または外部から観察された報酬を用いて、その応答を文脈で最適化する。
提案する最小エントロピーICPO(ME-ICPO, Minimum-Entropy ICPO)は、その応答と自己評価報酬を反復的に利用して、推論時にその応答を洗練する実用的なアルゴリズムである。
論文 参考訳(メタデータ) (2026-03-02T00:21:50Z) - Think Outside the Policy: In-Context Steered Policy Optimization [13.24687763539952]
In-context Steered Policy Optimizationは、既存のデータセットを使用した専門家のガイダンスを提供する。
ICPOは、数学的推論ベンチマークにおける強化学習性能と訓練安定性を一貫して向上させる。
論文 参考訳(メタデータ) (2025-10-30T14:14:15Z) - Think before Recommendation: Autonomous Reasoning-enhanced Recommender [25.883091131835172]
RecZeroは強化学習に基づくレコメンデーションパラダイムであり、従来のマルチモデルおよびマルチステージ蒸留アプローチを捨てている。
本稿では、教師付き微調整とRLを組み合わせたハイブリッドパラダイムRecOneについて検討し、そのモデルにコールドスタート推論サンプルを初期化し、さらにRLに最適化する。
論文 参考訳(メタデータ) (2025-10-27T07:26:32Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities [45.989423626537985]
強化学習(Reinforcement Learning, RL)は, 推論モデルの学習に有効な手法である。
外部の高レベルガイダンス(「思考パターン」)を取り入れてRLを強化するフレームワークであるTAPOを提案する。
AIMEではGRPOが99%,AMCでは41%,Minerva Mathでは17%,それぞれ有意に向上した。
論文 参考訳(メタデータ) (2025-05-21T16:06:10Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。