論文の概要: ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
- arxiv url: http://arxiv.org/abs/2501.02506v2
- Date: Tue, 07 Jan 2025 09:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 12:28:52.963476
- Title: ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
- Title(参考訳): ToolHop: マルチホップツール使用時の大規模言語モデル評価のためのクエリ駆動ベンチマーク
- Authors: Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiecao Chen,
- Abstract要約: 995のユーザクエリと3,912の関連ツールからなるデータセットであるToolHopを提示する。
ToolHopは、多様なクエリ、意味のある相互依存性、ローカル実行可能なツール、詳細なフィードバック、検証可能な回答を保証する。
5つのモデルファミリーにまたがる14のLSMを評価し、マルチホップツールの使用シナリオを扱う上で重要な課題を明らかにした。
- 参考スコア(独自算出の注目度): 51.43211624452462
- License:
- Abstract: Effective evaluation of multi-hop tool use is critical for analyzing the understanding, reasoning, and function-calling capabilities of large language models (LLMs). However, progress has been hindered by a lack of reliable evaluation datasets. To address this, we present ToolHop, a dataset comprising 995 user queries and 3,912 associated tools, specifically designed for rigorous evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful interdependencies, locally executable tools, detailed feedback, and verifiable answers through a novel query-driven data construction approach that includes tool creation, document refinement, and code generation. We evaluate 14 LLMs across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and GPT), uncovering significant challenges in handling multi-hop tool-use scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%, underscoring substantial room for improvement. Further analysis reveals variations in tool-use strategies for various families, offering actionable insights to guide the development of more effective approaches. Code and data can be found in https://huggingface.co/datasets/bytedance-research/ToolHop.
- Abstract(参考訳): 大規模言語モデル (LLM) の理解, 推論, 機能呼び出し能力の解析には, マルチホップツールの使用の効果的な評価が重要である。
しかし、信頼性の高い評価データセットが欠如しているため、進歩は妨げられている。
これを解決するために,995のユーザクエリと3,912の関連ツールからなるデータセットであるToolHopを提案する。
ToolHopは、多様なクエリ、意味のある相互依存性、ローカル実行可能なツール、詳細なフィードバック、そして、ツールの作成、ドキュメントの洗練、コード生成を含む、新しいクエリ駆動型データ構築アプローチによる検証可能な回答を保証する。
5つのモデルファミリー(LLaMA3.1、Qwen2.5、Gemini1.5、Claude3.5、GPT)にまたがる14のLLMを評価し、マルチホップツールの使用シナリオを扱う上で重要な課題を明らかにした。
主モデルであるGPT-4oは49.04%の精度を達成し、改善の余地を減らしている。
さらなる分析により、様々な家族のためのツール利用戦略のバリエーションが明らかになり、より効果的なアプローチの開発を導くための実用的な洞察が提供される。
コードとデータはhttps://huggingface.co/datasets/bytedance-research/ToolHopにある。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Efficient and Scalable Estimation of Tool Representations in Vector Space [34.767193045989515]
ツール検索のための合成データを生成するためのフレームワークと,小型エンコーダモデルを用いた効率的なデータ駆動型ツール検索戦略を提案する。
ToolBankは、実際のユーザ利用を反映した、新しいツール検索データセットです。
これらの新しい方法により、ToolBenchデータセット上のRecall@Kで最大27.28、ToolBank上のRecall@Kで30.5の改善を実現しています。
論文 参考訳(メタデータ) (2024-09-02T19:39:24Z) - ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models [43.895478182631116]
ツール拡張大型言語モデル(LLM)は、現実世界のアプリケーションに急速に統合されている。
この課題に対処するために、包括的な診断ベンチマークであるToolBHを導入する。
ツールセットの特徴に基づいた,必要なツールや潜在的なツール,限定的な機能ツールの3つのシナリオについて検討する。
結果は、ToolBHベンチマークで提示された重要な課題を示している。
論文 参考訳(メタデータ) (2024-06-28T16:03:30Z) - Enhancing Tool Retrieval with Iterative Feedback from Large Language Models [9.588592185027455]
大規模言語モデル(LLM)は、コンテキスト内学習や微調整を通じて、ある程度のツールを効果的に扱うことができる。
現実のシナリオでは、ツールの数は一般的に広範囲で不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。
本稿では,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。
論文 参考訳(メタデータ) (2024-06-25T11:12:01Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。
LMが使用する外部プログラムとしてツールを統一的に定義する。
各種ツールの効率を実証的に検討した。
論文 参考訳(メタデータ) (2024-03-18T17:20:07Z) - ToolTalk: Evaluating Tool-Usage in a Conversational Setting [6.792842055445584]
本稿では,対話によって特定される多段階ツールの使用を必要とする複雑なユーザ意図のベンチマークであるToolTalkを紹介する。
ToolTalkには7つのプラグインにグループ化された28のツールが含まれており、各ツールの完全なシミュレートされた実装が含まれている。
ツールTalkにおけるGPT-3.5とGPT-4の評価は,それぞれ26%,50%であった。
論文 参考訳(メタデータ) (2023-11-15T23:50:31Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs [84.45284695156771]
API-Bankは、ツール強化された大規模言語モデルのための画期的なベンチマークである。
73のAPIツールからなる実行評価システムを開発した。
我々は、1,000の異なるドメインにまたがる2,138のAPIから1,888のツール使用対話を含む総合的なトレーニングセットを構築した。
論文 参考訳(メタデータ) (2023-04-14T14:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。