論文の概要: ToolTalk: Evaluating Tool-Usage in a Conversational Setting
- arxiv url: http://arxiv.org/abs/2311.10775v1
- Date: Wed, 15 Nov 2023 23:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:34:13.331262
- Title: ToolTalk: Evaluating Tool-Usage in a Conversational Setting
- Title(参考訳): ToolTalk: 会話環境におけるツール使用の評価
- Authors: Nicholas Farn and Richard Shin
- Abstract要約: 本稿では,対話によって特定される多段階ツールの使用を必要とする複雑なユーザ意図のベンチマークであるToolTalkを紹介する。
ToolTalkには7つのプラグインにグループ化された28のツールが含まれており、各ツールの完全なシミュレートされた実装が含まれている。
ツールTalkにおけるGPT-3.5とGPT-4の評価は,それぞれ26%,50%であった。
- 参考スコア(独自算出の注目度): 6.792842055445584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have displayed massive improvements in reasoning
and decision-making skills and can hold natural conversations with users. Many
recent works seek to augment LLM-based assistants with external tools so they
can access private or up-to-date information and carry out actions on behalf of
users. To better measure the performance of these assistants, this paper
introduces ToolTalk, a benchmark consisting of complex user intents requiring
multi-step tool usage specified through dialogue. ToolTalk contains 28 tools
grouped into 7 plugins, and includes a complete simulated implementation of
each tool, allowing for fully automated evaluation of assistants that rely on
execution feedback. ToolTalk also emphasizes tools that externally affect the
world rather than only tools for referencing or searching information. We
evaluate GPT-3.5 and GPT-4 on ToolTalk resulting in success rates of 26% and
50% respectively. Our analysis of the errors reveals three major categories and
suggests some future directions for improvement. We release ToolTalk at
https://github.com/microsoft/ToolTalk.
- Abstract(参考訳): 大規模言語モデル(llm)は推論と意思決定スキルを大幅に改善し、ユーザとの自然な会話を保持できる。
最近の多くの研究は、LPMベースのアシスタントを外部ツールで強化し、プライベートまたは最新の情報にアクセスし、ユーザに代わってアクションを実行できるようにする。
本稿では、これらのアシスタントの性能をよりよく測定するために、対話によって特定される多段階ツールの使用を必要とする複雑なユーザ意図のベンチマークであるToolTalkを紹介する。
tooltalkには7つのプラグインにグループ化された28のツールが含まれており、各ツールの完全なシミュレート実装が含まれている。
tooltalkは、情報参照や検索のためのツールだけでなく、外部から世界に影響を与えるツールも強調する。
ツールTalkにおけるGPT-3.5とGPT-4の評価は,それぞれ26%,50%であった。
エラーを分析した結果,3つの主要なカテゴリが明らかとなり,今後の改善の方向性が示唆された。
ToolTalkはhttps://github.com/microsoft/ToolTalk.comでリリースしています。
関連論文リスト
- PTR: Precision-Driven Tool Recommendation for Large Language Models [43.53494041932615]
大規模言語モデル(LLM)のためのPTR(Precision-driven Tool Recommendation)アプローチを提案する。
PTRは、過去のツールバンドルの利用を利用して、初期的かつ簡潔なツールセットをキャプチャし、ツールマッチングを実行することで、ツールセットを動的に調整する。
LLMのツールレコメンデーションの有効性を評価するために,新しいデータセットRecToolsとメトリクスTRACCを提案する。
論文 参考訳(メタデータ) (2024-11-14T17:33:36Z) - MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。
メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-15T10:15:41Z) - Enhancing Tool Retrieval with Iterative Feedback from Large Language Models [9.588592185027455]
大規模言語モデル(LLM)は、コンテキスト内学習や微調整を通じて、ある程度のツールを効果的に扱うことができる。
現実のシナリオでは、ツールの数は一般的に広範囲で不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。
本稿では,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。
論文 参考訳(メタデータ) (2024-06-25T11:12:01Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - TOOLVERIFIER: Generalization to New Tools via Self-Verification [69.85190990517184]
本稿では,ツール選択中にコントラスト質問を自己問合せすることで,近接候補を識別する自己検証手法を提案する。
ToolBenchベンチマークによる4つのタスクの実験では、17の見えないツールで構成されており、数ショットのベースラインよりも平均22%改善されている。
論文 参考訳(メタデータ) (2024-02-21T22:41:38Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use
Tools and Which to Use [82.24774504584066]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z) - ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via
Tool Embeddings [25.5476046472217]
大規模な言語モデルを外部ツールで拡張することは、複雑な問題を解決するための有望なアプローチとして現れている。
最近のインコンテキスト学習パラダイムはこれらの問題を緩和するが、制限されたコンテキスト長はいくつかのデモのみを可能にする。
我々は、両者の利点を組み合わせた代替アプローチである$textbfToolkenGPT$を提案する。
論文 参考訳(メタデータ) (2023-05-19T09:54:21Z) - API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs [84.45284695156771]
API-Bankは、ツール強化された大規模言語モデルのための画期的なベンチマークである。
73のAPIツールからなる実行評価システムを開発した。
我々は、1,000の異なるドメインにまたがる2,138のAPIから1,888のツール使用対話を含む総合的なトレーニングセットを構築した。
論文 参考訳(メタデータ) (2023-04-14T14:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。