論文の概要: GRETEL: A Goal-driven Retrieval and Execution-based Trial Framework for LLM Tool Selection Enhancing
- arxiv url: http://arxiv.org/abs/2510.17843v1
- Date: Fri, 10 Oct 2025 00:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-26 16:57:26.501431
- Title: GRETEL: A Goal-driven Retrieval and Execution-based Trial Framework for LLM Tool Selection Enhancing
- Title(参考訳): GRETEL: LLMツール選択のためのゴール駆動検索と実行ベースの試行フレームワーク
- Authors: Zongze Wu, Yani Guo, Churong Liang, Runnan Li,
- Abstract要約: GRETELは、サンドボックス化された計画実行評価サイクルを通じてセマンティックに検索された候補を処理するエージェントワークフローを実装している。
ToolBenchベンチマークに関する包括的な評価は、すべてのメトリクスで大幅に改善されていることを示しています。
- 参考スコア(独自算出の注目度): 6.790345342526922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable advances in Large Language Model capabilities, tool retrieval for agent-based systems remains fundamentally limited by reliance on semantic similarity, which fails to capture functional viability. Current methods often retrieve textually relevant but functionally inoperative tools due to parameter mismatches, authentication failures, and execution constraints--a phenomenon we term the semantic-functional gap. We introduce GRETEL, to address this gap through systematic empirical validation. GRETEL implements an agentic workflow that processes semantically retrieved candidates through sandboxed plan-execute-evaluate cycles, generating execution-grounded evidence to distinguish truly functional tools from merely descriptive matches. Our comprehensive evaluation on the ToolBench benchmark demonstrates substantial improvements across all metrics: Pass Rate (at 10) increases from 0.690 to 0.826, Recall (at 10) improves from 0.841 to 0.867, and NDCG (at 10) rises from 0.807 to 0.857.. These results establish that execution-based validation provides a more reliable foundation for tool selection than semantic similarity alone, enabling more robust agent performance in real-world applications.
- Abstract(参考訳): 大きな言語モデル能力の顕著な進歩にもかかわらず、エージェントベースのシステムのツール検索は、機能的生存可能性の獲得に失敗するセマンティックな類似性に依存して、基本的に制限されている。
現在の手法では, パラメータミスマッチや認証ミス, 実行制約などの原因で, テキストに関連があるが機能的でないツールを検索することが多い。
系統的な経験的検証を通じて,このギャップに対処するためにGRETELを導入する。
GRETELは,サンドボックス化された計画実行評価サイクルを通じてセマンティック検索された候補を処理するエージェントワークフローを実装している。
ToolBenchベンチマークの総合的な評価では,すべての指標に対して,パスレート (10) が 0.690 から 0.826 に,リコール (10) が 0.841 から 0.867 に,NDCG (10) が 0.807 から 0.857 に,それぞれ大幅に改善されている。
これらの結果は、実行ベースのバリデーションによって、セマンティックな類似性のみよりも信頼性の高いツール選択基盤が提供され、現実世界のアプリケーションではより堅牢なエージェントパフォーマンスが実現されていることを証明している。
関連論文リスト
- Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。
LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。
我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:55:14Z) - Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use [50.02614257515131]
大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。
本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:22:21Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。
この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。
本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T07:58:05Z) - FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文 参考訳(メタデータ) (2024-06-17T06:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。