論文の概要: PEARL: Plan Exploration and Adaptive Reinforcement Learning for Multihop Tool Use
- arxiv url: http://arxiv.org/abs/2601.20439v1
- Date: Wed, 28 Jan 2026 09:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.887438
- Title: PEARL: Plan Exploration and Adaptive Reinforcement Learning for Multihop Tool Use
- Title(参考訳): PEARL:マルチホップツール活用のための計画探索と適応強化学習
- Authors: Qihao Wang, Mingzhe Lu, Jiayue Wu, Yue Hu, Yanbing Liu,
- Abstract要約: 大規模な言語モデルは、外部ツールには大きな可能性を秘めていますが、複雑なマルチターンツールの実行において、大きな課題に直面しています。
我々は、高度なツール使用のためのLSM計画と実行を強化する新しいフレームワークであるPEARLを提案する。
ToolHopとT-Evalベンチマークの実験では、PEARLは既存の手法よりも大幅に優れており、ToolHopで新しい最先端の成功率である textbf56.5% を達成し、低呼び出しエラー率を維持している。
- 参考スコア(独自算出の注目度): 10.58323565531902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models show great potential with external tools, but face significant challenges in complex, multi-turn tool invocation. They often exhibit weak planning, tool hallucination, erroneous parameter generation, and struggle with robust interaction. To tackle these issues, we present PEARL, a novel framework to enhance LLM planning and execution for sophisticated tool use. PEARL adopts a two-stage approach: an offline phase where the agent explores tools to learn valid usage patterns and failure conditions, and an online reinforcement learning phase. In the online phase, a dedicated Planner is trained via group Relative Policy Optimization (GRPO) with a carefully designed reward function that provides distinct signals for planning quality. Experiments on the ToolHop and T-Eval benchmarks show PEARL significantly outperforms existing methods, achieving a new state-of-the-art success rate of \textbf{56.5\%} on ToolHop while maintaining a low invocation error rate. Our work marks a key advance in addressing the complex planning challenges of tool use, contributing to the development of more robust and reliable LLM-based agents.
- Abstract(参考訳): 大規模な言語モデルは、外部ツールには大きな可能性を秘めていますが、複雑なマルチターンツールの実行において、大きな課題に直面しています。
彼らはしばしば、弱い計画、道具の幻覚、誤ったパラメータ生成、堅牢な相互作用との闘いを示す。
これらの課題に対処するため,高度なツール利用のための LLM 計画と実行を強化する新しいフレームワーク PEARL を提案する。
PEARLは、エージェントが有効な使用パターンと障害条件を学ぶためのツールを探索するオフラインフェーズと、オンライン強化学習フェーズという、2段階のアプローチを採用している。
オンラインフェーズでは、専用のプランナーがグループ相対政策最適化(GRPO)を通じてトレーニングされ、注意深く設計された報酬関数によって、計画品質の明確なシグナルを提供する。
ToolHopとT-Evalベンチマークの実験では、PEARLは既存の手法よりも大幅に優れており、ToolHopにおける新しい最先端の成功率であるtextbf{56.5\%}を実現し、低呼び出しエラー率を維持している。
我々の研究は、ツール利用の複雑な計画課題に対処する上で重要な進歩であり、より堅牢で信頼性の高いLCMベースのエージェントの開発に寄与します。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。
ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。
Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文 参考訳(メタデータ) (2025-05-22T09:00:19Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。