論文の概要: MUA-RL: Multi-turn User-interacting Agent Reinforcement Learning for agentic tool use
- arxiv url: http://arxiv.org/abs/2508.18669v1
- Date: Tue, 26 Aug 2025 04:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.677807
- Title: MUA-RL: Multi-turn User-interacting Agent Reinforcement Learning for agentic tool use
- Title(参考訳): MUA-RL:エージェントツール利用のためのマルチターンユーザインタラクションエージェント強化学習
- Authors: Weikang Zhao, Xili Wang, Chengdi Ma, Lingbin Kong, Zhaohua Yang, Mingxiang Tuo, Xiaowei Shi, Yitao Zhai, Xunliang Cai,
- Abstract要約: MUA-RL(Multi-turn User-interacting Agent Reinforcement Learning for agentic tools use)を新たに導入した。
MUA-RLはLLMを模擬したユーザを強化学習ループに統合する。
TAU2 Retailでは67.3、TAU2 Airlineでは45.4、TAU2 Telecomでは28.3、BFCL-V3 Multi Turnでは28.4、ACEBench Agentでは82.5である。
- 参考スコア(独自算出の注目度): 13.2154672798075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent rapid advancement of Agentic Intelligence, agentic tool use in LLMs has become increasingly important. During multi-turn interactions between agents and users, the dynamic, uncertain, and stochastic nature of user demands poses significant challenges to the agent's tool invocation capabilities. Agents are no longer expected to simply call tools to deliver a result; rather, they must iteratively refine their understanding of user needs through communication while simultaneously invoking tools to resolve user queries. Existing reinforcement learning (RL) approaches for tool use lack the integration of genuinely dynamic users during the RL training process. To bridge this gap, we introduce MUA-RL (Multi-turn User-interacting Agent Reinforcement Learning for agentic tool use), a novel reinforcement learning framework that, for the first time in the field of agentic tool use, integrates LLM-simulated users into the reinforcement learning loop. MUA-RL aims to enable autonomous learning of models to communicate with users efficiently and use various tools to solve practical problems in dynamic multi-turn interactions. Evaluations are done on several multi-turn tool-using benchmarks (see Figure 1). Specifically, MUA-RL-32B achieves 67.3 on TAU2 Retail, 45.4 on TAU2 Airline, 28.3 on TAU2 Telecom, 28.4 on BFCL-V3 Multi Turn, and 82.5 on ACEBench Agent -- outperforming or matching the performance of larger open-source models such as DeepSeek-V3-0324 and Qwen3-235B-A22B in non-thinking settings.
- Abstract(参考訳): 近年,エージェント・インテリジェンス(エージェント・インテリジェンス)の急速な進歩に伴い,LSMにおけるエージェント・ツール・ユースの重要性が高まっている。
エージェントとユーザ間のマルチターンインタラクションの間、ユーザ要求の動的で不確実で確率的な性質は、エージェントのツール呼び出し機能に重大な課題をもたらす。
エージェントは、結果を提供するツールを単に呼び出すのではなく、コミュニケーションを通じてユーザニーズに対する理解を反復的に洗練し、同時にユーザクエリを解決するツールを呼び出す必要がある。
ツール使用のための既存の強化学習(RL)アプローチは、RLトレーニングプロセス中に真にダイナミックなユーザの統合を欠いている。
このギャップを埋めるために,エージェントツール利用におけるMUA-RL(Multi-turn User-interacting Agent Reinforcement Learning for agentic tools use)を導入する。
MUA-RLは、モデルの自律的な学習がユーザと効率的にコミュニケーションし、様々なツールを使って動的マルチターンインタラクションの実践的な問題を解決することを目的としている。
評価は、複数のマルチターンツール使用ベンチマークで行われます(図1参照)。
具体的には、MUA-RL-32BはTAU2リテールで67.3、TAU2エアラインで45.4、TAU2テレコムで28.3、BFCL-V3マルチターンで28.4、ACEBench Agentで82.5を達成している。
関連論文リスト
- AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。
強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。
AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T10:22:36Z) - Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning [0.21845291030915975]
ARTISTはエージェント推論、強化学習、大規模言語モデルのツール統合を密に結合する統合フレームワークである。
モデルは、マルチターン推論チェーン内でいつ、どのように、どのツールを呼び出すかを、自律的に決定できる。
実験の結果、ARTISTは最先端のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-04-28T10:42:49Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文 参考訳(メタデータ) (2025-02-17T04:50:37Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。