論文の概要: NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.11805v1
- Date: Tue, 15 Oct 2024 17:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:33.160673
- Title: NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models
- Title(参考訳): NesTools: 大規模言語モデルのネストツール学習能力を評価するデータセット
- Authors: Han Han, Tong Zhu, Xiang Zhang, Mengsong Wu, Hao Xiong, Wenliang Chen,
- Abstract要約: 包括的ネストツール学習評価のギャップを埋めるために、NesToolsを導入します。
NesToolsは、大規模なネストツールコールを構築するための、新しい自動データ生成方法を備えている。
手動によるレビューと改善により、データセットは高品質で、現実世界のシナリオと密接に一致している。
- 参考スコア(独自算出の注目度): 10.344854970262984
- License:
- Abstract: Large language models (LLMs) combined with tool learning have gained impressive results in real-world applications. During tool learning, LLMs may call multiple tools in nested orders, where the latter tool call may take the former response as its input parameters. However, current research on the nested tool learning capabilities is still under-explored, since the existing benchmarks lack of relevant data instances. To address this problem, we introduce NesTools to bridge the current gap in comprehensive nested tool learning evaluations. NesTools comprises a novel automatic data generation method to construct large-scale nested tool calls with different nesting structures. With manual review and refinement, the dataset is in high quality and closely aligned with real-world scenarios. Therefore, NesTools can serve as a new benchmark to evaluate the nested tool learning abilities of LLMs. We conduct extensive experiments on 22 LLMs, and provide in-depth analyses with NesTools, which shows that current LLMs still suffer from the complex nested tool learning task.
- Abstract(参考訳): 大規模言語モデル(LLM)とツール学習を組み合わせることで、現実世界のアプリケーションでは印象的な結果が得られている。
ツール学習中、LLMはネストした順序で複数のツールを呼び出すことができ、後者のツールコールは前者の応答を入力パラメータとして取ることができる。
しかし、既存のベンチマークでは関連するデータインスタンスが不足しているため、ネストしたツール学習機能に関する現在の研究はまだ未調査である。
この問題に対処するため,包括的ネストツール学習評価における現在のギャップを埋めるためにNesToolsを導入する。
NesToolsは、異なるネスト構造を持つ大規模ネストツールコールを構築するための、新しい自動データ生成方法を備えている。
手動によるレビューと改善により、データセットは高品質で、現実世界のシナリオと密接に一致している。
そのため、NesToolsはLLMのネストしたツール学習能力を評価するための新しいベンチマークとして機能する。
我々は22のLLMに対して広範な実験を行い、NesToolsを用いた詳細な分析を行い、現在のLLMが複雑なネストツール学習タスクに苦しめられていることを示す。
関連論文リスト
- Enhancing Tool Retrieval with Iterative Feedback from Large Language Models [9.588592185027455]
大規模言語モデル(LLM)は、コンテキスト内学習や微調整を通じて、ある程度のツールを効果的に扱うことができる。
現実のシナリオでは、ツールの数は一般的に広範囲で不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。
本稿では,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。
論文 参考訳(メタデータ) (2024-06-25T11:12:01Z) - Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - ToolNet: Connecting Large Language Models with Massive Tools via Tool
Graph [43.95759808077083]
既存のテキスト内学習アプローチは、ツールを単純なテキスト記述のリストにフォーマットし、大きな言語モデルに入力する。
本稿では,トークン消費を適度に増加させ,ツールの数を数千にスケールアップするプラグイン・アンド・プレイ・フレームワークであるToolNetを提案する。
論文 参考訳(メタデータ) (2024-02-29T02:04:00Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。
トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-01-11T15:45:11Z) - ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities of
Large Language Models in Real-world Scenarios [48.38419686697733]
本稿では,大規模言語モデルのツール学習能力を評価するためのシステムであるToolEyesを提案する。
このシステムは7つの現実シナリオを慎重に分析し、ツール学習においてLLMに不可欠な5次元を解析する。
ToolEyesには,約600のツールを備えたツールライブラリが組み込まれている。
論文 参考訳(メタデータ) (2024-01-01T12:49:36Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use
Tools and Which to Use [82.24774504584066]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。