論文の概要: TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use
- arxiv url: http://arxiv.org/abs/2510.04550v1
- Date: Mon, 06 Oct 2025 07:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.729185
- Title: TRAJECT-Bench:A Trajectory-Aware Benchmark for Evaluating Agentic Tool Use
- Title(参考訳): TRAJECT-Bench:エージェントツール使用評価のための軌道認識ベンチマーク
- Authors: Pengfei He, Zhenwei Dai, Bing He, Hui Liu, Xianfeng Tang, Hanqing Lu, Juanhui Li, Jiayuan Ding, Subhabrata Mukherjee, Suhang Wang, Yue Xing, Jiliang Tang, Benoit Dumoulin,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、現実のタスクを完了するためのツールの使用にますます依存している。
LLMのツール使用能力を総合的に評価するためのトラジェクトリ対応ベンチマークであるTRAJECT-Benchを紹介する。
- 参考スコア(独自算出の注目度): 74.47746287181383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based agents increasingly rely on tool use to complete real-world tasks. While existing works evaluate the LLMs' tool use capability, they largely focus on the final answers yet overlook the detailed tool usage trajectory, i.e., whether tools are selected, parameterized, and ordered correctly. We introduce TRAJECT-Bench, a trajectory-aware benchmark to comprehensively evaluate LLMs' tool use capability through diverse tasks with fine-grained evaluation metrics. TRAJECT-Bench pairs high-fidelity, executable tools across practical domains with tasks grounded in production-style APIs, and synthesizes trajectories that vary in breadth (parallel calls) and depth (interdependent chains). Besides final accuracy, TRAJECT-Bench also reports trajectory-level diagnostics, including tool selection and argument correctness, and dependency/order satisfaction. Analyses reveal failure modes such as similar tool confusion and parameter-blind selection, and scaling behavior with tool diversity and trajectory length where the bottleneck of transiting from short to mid-length trajectories is revealed, offering actionable guidance for LLMs' tool use.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、現実のタスクを完了するためのツールの使用にますます依存している。
既存の研究はLLMのツール使用能力を評価するが、彼らは最終回答に重点を置いているが、ツール使用の詳細な軌跡、すなわち、ツールが選択され、パラメータ化され、正しく順序付けられたかどうかを見落としている。
TRAJECT-Bench(トラジェクティブ・アウェア・ベンチマーク)を導入し、細粒度評価指標を用いた多種多様なタスクを通してLLMのツール使用能力を総合的に評価する。
TRAJECT-Benchは高忠実で実行可能なツールを実運用スタイルのAPIに根ざしたタスクと組み合わせ、幅(並列呼び出し)と深さ(相互依存チェーン)の異なるトラジェクトリを合成する。
TRAJECT-Benchは最終的な精度に加えて、ツールの選択や引数の正しさ、依存性/順序満足度など、トラジェクトリレベルの診断も報告している。
分析では、同様のツールの混乱やパラメータ-ブラインド選択などの障害モードを明らかにし、ツールの多様性と軌道長によるスケーリングの挙動を明らかにし、短距離から中距離の軌跡への遷移のボトルネックを明らかにし、LLMのツール使用のための実用的なガイダンスを提供する。
関連論文リスト
- PTR: Precision-Driven Tool Recommendation for Large Language Models [43.53494041932615]
大規模言語モデル(LLM)のためのPTR(Precision-driven Tool Recommendation)アプローチを提案する。
PTRは、過去のツールバンドルの利用を利用して、初期的かつ簡潔なツールセットをキャプチャし、ツールマッチングを実行することで、ツールセットを動的に調整する。
LLMのツールレコメンデーションの有効性を評価するために,新しいデータセットRecToolsとメトリクスTRACCを提案する。
論文 参考訳(メタデータ) (2024-11-14T17:33:36Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [79.87054552116443]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。