論文の概要: PRIME: Training Free Proactive Reasoning via Iterative Memory Evolution for User-Centric Agent
- arxiv url: http://arxiv.org/abs/2604.07645v1
- Date: Wed, 08 Apr 2026 23:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.592216
- Title: PRIME: Training Free Proactive Reasoning via Iterative Memory Evolution for User-Centric Agent
- Title(参考訳): PRIME:ユーザ中心エージェントの反復記憶進化によるフリープロアクティブ推論の訓練
- Authors: Prince Zizhuang Wang, Shuli Jiang,
- Abstract要約: PRIMEは継続的エージェント進化のための勾配のない学習フレームワークである。
マルチターン相互作用の軌跡を、構造化された人間可読な体験に蒸留する。
実験の結果,PRIMEは勾配法と競合する性能を示した。
- 参考スコア(独自算出の注目度): 2.291770711277359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of autonomous tool-use agents for complex, long-horizon tasks in collaboration with human users has become the frontier of agentic research. During multi-turn Human-AI interactions, the dynamic and uncertain nature of user demands poses a significant challenge; agents must not only invoke tools but also iteratively refine their understanding of user intent through effective communication. While recent advances in reinforcement learning offer a path to more capable tool-use agents, existing approaches require expensive training costs and struggle with turn-level credit assignment across extended interaction horizons. To this end, we introduce PRIME (Proactive Reasoning via Iterative Memory Evolution), a gradient-free learning framework that enables continuous agent evolvement through explicit experience accumulation rather than expensive parameter optimization. PRIME distills multi-turn interaction trajectories into structured, human-readable experiences organized across three semantic zones: successful strategies, failure patterns, and user preferences. These experiences evolve through meta-level operations and guide future agent behavior via retrieval-augmented generation. Our experiments across several diverse user-centric environments demonstrate that PRIME achieves competitive performance with gradient-based methods while offering cost-efficiency and interpretability. Together, PRIME presents a practical paradigm for building proactive, collaborative agents that learn from Human-AI interaction without the computational burden of gradient-based training.
- Abstract(参考訳): エージェント研究のフロンティアとなったのは,人間との共同作業による複雑な長期作業のための自律的ツール利用エージェントの開発である。
エージェントはツールを呼び出すだけでなく、効果的なコミュニケーションを通じてユーザの意図に対する理解を反復的に洗練しなければならない。
強化学習の最近の進歩は、より有能なツール使用エージェントへの道筋を提供する一方で、既存のアプローチでは、高価なトレーニングコストと、広範な相互作用の地平を越えてターンレベルのクレジット割り当てに苦労する必要がある。
この目的のためにPRIME(Proactive Reasoning via Iterative Memory Evolution)は,高コストパラメータ最適化ではなく,明示的な経験蓄積を通じて継続的エージェントの進化を可能にする,勾配のない学習フレームワークである。
PRIMEは、マルチターンインタラクションの軌跡を、成功戦略、失敗パターン、ユーザ好みという3つのセマンティックゾーンにまたがる構造化された、人間可読なエクスペリエンスに蒸留する。
これらの経験はメタレベルの操作を通じて進化し、検索拡張生成を介して将来のエージェント動作を導く。
様々なユーザ中心環境を対象とした実験により,PRIMEは,コスト効率と解釈可能性を提供しながら,勾配法と競合する性能を発揮することを示した。
PRIMEは、勾配に基づくトレーニングの計算負担を伴わずに、人間とAIの相互作用から学習する積極的で協調的なエージェントを構築するための実践的パラダイムを提供する。
関連論文リスト
- SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents [35.45207852488779]
本稿では,ツールメモリをベースとした自己進化型エージェントフレームワークSEARLを紹介する。
インタラクションエクスペリエンスを直接利用するアプローチとは異なり,本手法では,計画と実行を統合する構造化されたエクスペリエンスメモリを構築している。
我々は,知識推論と数学タスクの枠組みを評価し,より実践的で効率的な学習を実現する上での有効性を実証した。
論文 参考訳(メタデータ) (2026-04-09T04:38:47Z) - Pushing Forward Pareto Frontiers of Proactive Agents with Behavioral Agentic Optimization [61.641777037967366]
プロアクティブな大規模言語モデル(LLM)エージェントは、複数のターンで積極的に計画し、クエリし、相互作用することを目的としている。
エージェント強化学習(RL)は、マルチターン環境でエージェントを訓練するための有望なソリューションとして登場した。
本稿では,行動強化と情報収集能力の強化を両立させたエージェントRLフレームワークであるBAOを提案する。
論文 参考訳(メタデータ) (2026-02-11T20:40:43Z) - Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning [66.52010873968383]
本稿では,RL学習を通じて学習した探索的,適応的な行動を可能にする,交互に探索と推論をインターリーブする対話エージェントを提案する。
広く使われている4つの対話型ベンチマークによる実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-19T14:55:54Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - CooHOI: Learning Cooperative Human-Object Interaction with Manipulated Object Dynamics [44.30880626337739]
CooHOIはマルチヒューマノイド物体輸送問題の解決を目的としたフレームワークである。
単一のヒューマノイドキャラクタは、人間の動きの先行から模倣学習を通じてオブジェクトと対話することを学ぶ。
そして、ヒューマノイドは、操作対象の共有ダイナミクスを考慮し、他人と協調することを学ぶ。
論文 参考訳(メタデータ) (2024-06-20T17:59:22Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。