論文の概要: Pushing Forward Pareto Frontiers of Proactive Agents with Behavioral Agentic Optimization
- arxiv url: http://arxiv.org/abs/2602.11351v1
- Date: Wed, 11 Feb 2026 20:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.533302
- Title: Pushing Forward Pareto Frontiers of Proactive Agents with Behavioral Agentic Optimization
- Title(参考訳): 行動的エージェント最適化を用いたプロアクティブエージェントの前向きパレートフロンティア
- Authors: Yihang Yao, Zhepeng Cen, Haohong Lin, Shiqi Liu, Zuxin Liu, Jiacheng Zhu, Zhang-Wei Hong, Laixi Shi, Ding Zhao,
- Abstract要約: プロアクティブな大規模言語モデル(LLM)エージェントは、複数のターンで積極的に計画し、クエリし、相互作用することを目的としている。
エージェント強化学習(RL)は、マルチターン環境でエージェントを訓練するための有望なソリューションとして登場した。
本稿では,行動強化と情報収集能力の強化を両立させたエージェントRLフレームワークであるBAOを提案する。
- 参考スコア(独自算出の注目度): 61.641777037967366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proactive large language model (LLM) agents aim to actively plan, query, and interact over multiple turns, enabling efficient task completion beyond passive instruction following and making them essential for real-world, user-centric applications. Agentic reinforcement learning (RL) has recently emerged as a promising solution for training such agents in multi-turn settings, allowing interaction strategies to be learned from feedback. However, existing pipelines face a critical challenge in balancing task performance with user engagement, as passive agents can not efficiently adapt to users' intentions while overuse of human feedback reduces their satisfaction. To address this trade-off, we propose BAO, an agentic RL framework that combines behavior enhancement to enrich proactive reasoning and information-gathering capabilities with behavior regularization to suppress inefficient or redundant interactions and align agent behavior with user expectations. We evaluate BAO on multiple tasks from the UserRL benchmark suite, and demonstrate that it substantially outperforms proactive agentic RL baselines while achieving comparable or even superior performance to commercial LLM agents, highlighting its effectiveness for training proactive, user-aligned LLM agents in complex multi-turn scenarios. Our website: https://proactive-agentic-rl.github.io/.
- Abstract(参考訳): プロアクティブな大規模言語モデル(LLM)エージェントは、複数のターンで積極的に計画、クエリ、対話することを目的としており、受動的命令以外の効率的なタスク補完を可能にし、現実世界のユーザ中心のアプリケーションに欠かせないものにしている。
エージェント強化学習(RL)は、最近、マルチターン設定でエージェントをトレーニングするための有望なソリューションとして登場し、フィードバックからインタラクション戦略を学ぶことができる。
しかし、既存のパイプラインは、人間のフィードバックの過剰使用が満足度を低下させながら、受動的エージェントがユーザの意図に効率的に適応できないため、タスクパフォーマンスとユーザエンゲージメントのバランスをとる上で重要な課題に直面している。
このトレードオフに対処するために,行動強化と情報収集能力の充実を両立させるエージェントRLフレームワークBAOを提案する。
UserRLベンチマークスイートから,複数のタスクにおけるBAOの評価を行い,複雑なマルチターンシナリオにおいて,有償のLLMエージェントに匹敵する,あるいはさらに優れた性能を保ちながら,プロアクティブなRLベースラインを大幅に上回ることを示した。
私たちのWebサイトは、https://proactive-agentic-rl.github.io/です。
関連論文リスト
- Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning [15.39565540937229]
マルチターンエージェント環境相互作用におけるエージェント思考と観察の管理は、効率を改善するための新たな戦略である。
本稿では,LLMエージェントが冗長な思考や観察を適応的に省略することを可能にする統合トレーニングフレームワークであるAgent-Omitを提案する。
実験の結果, 構築したAgen-Omit-8Bは, 7つのLLMエージェントに匹敵する性能を得ることができた。
論文 参考訳(メタデータ) (2026-02-04T07:26:23Z) - SpeakRL: Synergizing Reasoning, Speaking, and Acting in Language Models with Reinforcement Learning [46.70182219204539]
SpeakRLは、エージェントの会話能力を高めるための強化学習(RL)手法である。
本稿では,会話行動に対する報酬設計の体系的分析を行い,行動に対する質問のバランスをとるための指導者のための原則的報酬定式化を提案する。
論文 参考訳(メタデータ) (2025-12-15T10:08:53Z) - SAND: Boosting LLM Agents with Self-Taught Action Deliberation [54.48979740613828]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z) - Thought-Augmented Planning for LLM-Powered Interactive Recommender Agent [56.61028117645315]
本稿では,蒸留した思考パターンを通じて複雑なユーザ意図に対処する,思考増強型対話型推薦エージェントシステム(TAIRA)を提案する。
具体的には、ユーザニーズを分解し、サブタスクを計画することでレコメンデーションタスクを編成するマネージャエージェントを備えたLLM方式のマルチエージェントシステムとして設計されている。
複数のデータセットにまたがる包括的な実験により、IRAは既存の手法に比べて大幅に性能が向上した。
論文 参考訳(メタデータ) (2025-06-30T03:15:50Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。