論文の概要: AIPO: : Learning to Reason from Active Interaction
- arxiv url: http://arxiv.org/abs/2605.08401v1
- Date: Fri, 08 May 2026 19:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.616445
- Title: AIPO: : Learning to Reason from Active Interaction
- Title(参考訳): AIPO:アクティブインタラクションから推論を学ぶ
- Authors: Junnan Liu, Linhao Luo, Thuy-Trang Vu, Gholamreza Haffari,
- Abstract要約: AIPOは、ポリシーモデルが、推論ボトルネックに遭遇するときに、3つの機能的協調エージェントを積極的に相談することを可能にする。
AIPOは推論性能を継続的に改善し、異なるポリシーモデルとRLVRアルゴリズムをまたいで堅牢に一般化し、ポリシーモデルの推論能力境界を効果的に拡張する。
- 参考スコア(独自算出の注目度): 54.10819421625103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated remarkable reasoning capabilities, largely stimulated by Reinforcement Learning with Verifiable Rewards (RLVR). However, existing RL algorithms face a fundamental limitation: their exploration remains largely constrained by the inherent capability boundary of the policy model. Although recent methods introduce external expert demonstrations to extend this boundary, they typically rely on complete trajectory-level guidance, which is sample-inefficient, information-sparse, and may confine exploration to a static guidance space. Inspired by the potential of multi-agent systems, we propose $\textbf{AIPO}$, an enhanced reinforcement learning framework that improves LLM reasoning through active multi-agent interaction during exploration. Specifically, AIPO enables the policy model to proactively consult three functional collaborative agents, $\textit{Verify Agent}$, $\textit{Knowledge Agent}$, and $\textit{Reasoning Agent}$, when encountering reasoning bottlenecks, thereby receiving fine-grained and targeted guidance to actively expand its capability boundary during training. We further introduce a tailored importance sampling coefficient together with a clipping strategy to mitigate the off-policy bias and gradient vanishing issues that arise when learning from agent-provided feedback. After training, the policy model performs reasoning independently without relying on collaborative agents. Extensive experiments on diverse reasoning benchmarks, including AIME, MATH500, GPQA-Diamond, and LiveCodeBench, show that AIPO consistently improves reasoning performance, generalizes robustly across different policy models and RLVR algorithms, and effectively expands the reasoning capability boundary of the policy model.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は顕著な推論能力を示しており、主にReinforcement Learning with Verifiable Rewards(RLVR)によって刺激されている。
しかし、既存のRLアルゴリズムは基本的な制限に直面しており、その探索はポリシーモデル固有の能力境界によって大きく制約されている。
最近の手法では、この境界を拡張するために外部の専門家によるデモンストレーションが導入されたが、通常は完全な軌道レベルの誘導に依存しており、これはサンプル非効率で情報スパースであり、静的な誘導空間への探索を限定する可能性がある。
マルチエージェントシステムの可能性に触発されて、探索中のアクティブマルチエージェントインタラクションを通じてLLM推論を改善する強化強化学習フレームワークである$\textbf{AIPO}$を提案する。
具体的には、AIPOはポリシーモデルに対して、3つの機能的協調エージェント、$\textit{Verify Agent}$、$\textit{Knowledge Agent}$、$\textit{Reasoning Agent}$を積極的に参照できるようにします。
さらに,エージェントによるフィードバックから学習する際に生じる政治的偏見や勾配の解消を緩和するためのクリッピング戦略とともに,適切な重要度サンプリング係数を導入する。
トレーニング後、ポリシーモデルは、協調エージェントに頼ることなく、独立して推論を行う。
AIME、MATH500、GPQA-Diamond、LiveCodeBenchといった様々な推論ベンチマークに関する広範な実験は、AIPOが推論性能を一貫して改善し、異なるポリシーモデルとRLVRアルゴリズムにわたって堅牢に一般化し、ポリシーモデルの推論能力境界を効果的に拡張していることを示している。
関連論文リスト
- Poly-EPO: Training Exploratory Reasoning Models [62.82992914206963]
本稿では,学習後言語モデル(LM)の枠組みについて,楽観的な探索を明示的に奨励し,探索と搾取の相乗効果を促進する。
本稿では,この枠組みを探索と利用を明確に相乗化するための目的として,ポリクロミック探索政策最適化(Poly-EPO)を提案する。
論文 参考訳(メタデータ) (2026-04-19T22:54:19Z) - RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization [29.421185758698908]
エージェント強化学習(Agentic RL)は,大規模言語モデルベース(LLM)エージェントにおいて顕著な可能性を示している。
本稿では、学習中の探索を明示的に拡張する検索を導入した新しいRLフレームワークである検索型ポリシー最適化(RAPO)を提案する。
RAPOは、3つのエージェント推論タスクにわたる14のデータセットの平均ゲインを+5.0%達成し、トレーニング効率は1.2倍向上した。
論文 参考訳(メタデータ) (2026-03-03T15:23:42Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。