論文の概要: Agentic Policy Optimization via Instruction-Policy Co-Evolution
- arxiv url: http://arxiv.org/abs/2512.01945v1
- Date: Mon, 01 Dec 2025 17:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.003649
- Title: Agentic Policy Optimization via Instruction-Policy Co-Evolution
- Title(参考訳): インストラクション・ポリティ共進化によるエージェントポリシー最適化
- Authors: Han Zhou, Xingchen Wan, Ivan Vulić, Anna Korhonen,
- Abstract要約: INSPOは、命令-政治共進化のための新しいフレームワークである。
強化学習ループの動的コンポーネントとして命令最適化を統合する。
実験では、INSPOは計算オーバーヘッドを極端に増加させるだけで、かなりの性能向上を達成する。
- 参考スコア(独自算出の注目度): 44.74237684380034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capability of large language models (LLMs), enabling autonomous agents that can conduct effective multi-turn and tool-integrated reasoning. While instructions serve as the primary protocol for defining agents, RLVR typically relies on static and manually designed instructions. However, those instructions may be suboptimal for the base model, and the optimal instruction may change as the agent's policy improves and explores the interaction with the environment. To bridge the gap, we introduce INSPO, a novel Instruction-Policy co-evolution framework that integrates instruction optimization as a dynamic component of the reinforcement learning (RL) loop. INSPO maintains a dynamic population of instruction candidates that are sampled with questions, where reward signals in RL loops are automatically attributed to each instruction, and low performers are periodically pruned. New instructions are generated and verified through an on-policy reflection mechanism, where an LLM-based optimizer analyzes past experience from a replay buffer and evolves more effective strategies given the current policy. We conduct extensive experiments on multi-turn retrieval and reasoning tasks, demonstrating that INSPO substantially outperforms strong baselines relying on static instructions. INSPO discovers innovative instructions that guide the agent toward more strategic reasoning paths, achieving substantial performance gains with only a marginal increase in computational overhead.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を向上し、効果的なマルチターンおよびツール統合推論を行う自律エージェントを実現する。
命令はエージェントを定義するための主要なプロトコルとして機能するが、RLVRは通常、静的で手動で設計された命令に依存している。
しかしながら、これらの命令はベースモデルに最適であり、エージェントのポリシーが改善し、環境との相互作用を探索するにつれて、最適な命令が変化する可能性がある。
このギャップを埋めるために,強化学習(RL)ループの動的コンポーネントとして命令最適化を統合する,新しいインストラクション・ポリティクスの共進化フレームワークであるINSPOを導入する。
INSPOは、質問にサンプリングされた命令候補の動的集団を維持しており、RLループの報酬信号は各命令に自動的に関連付けられ、低いパフォーマーは定期的にプルーニングされる。
LLMベースのオプティマイザは、リプレイバッファから過去の経験を分析し、現在のポリシーに従ってより効果的な戦略を進化させる。
マルチターン検索と推論タスクに関する広範な実験を行い、INSPOが静的命令に依存する強いベースラインを大幅に上回っていることを示す。
INSPOは、エージェントをより戦略的推論経路へと導く革新的な命令を発見し、計算オーバーヘッドを極端に増加させるだけでかなりの性能向上を達成する。
関連論文リスト
- STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。
複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。
既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文 参考訳(メタデータ) (2025-05-27T03:40:02Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。