論文の概要: Tool Documentation Enables Zero-Shot Tool-Usage with Large Language
Models
- arxiv url: http://arxiv.org/abs/2308.00675v1
- Date: Tue, 1 Aug 2023 17:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 13:21:26.081631
- Title: Tool Documentation Enables Zero-Shot Tool-Usage with Large Language
Models
- Title(参考訳): 大規模な言語モデルでゼロショットツール使用を可能にするツールドキュメント
- Authors: Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander
Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister
- Abstract要約: 大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。
デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
- 参考スコア(独自算出の注目度): 90.96816639172464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today, large language models (LLMs) are taught to use new tools by providing
a few demonstrations of the tool's usage. Unfortunately, demonstrations are
hard to acquire, and can result in undesirable biased usage if the wrong
demonstration is chosen. Even in the rare scenario that demonstrations are
readily available, there is no principled selection protocol to determine how
many and which ones to provide. As tasks grow more complex, the selection
search grows combinatorially and invariably becomes intractable. Our work
provides an alternative to demonstrations: tool documentation. We advocate the
use of tool documentation, descriptions for the individual tool usage, over
demonstrations. We substantiate our claim through three main empirical findings
on 6 tasks across both vision and language modalities. First, on existing
benchmarks, zero-shot prompts with only tool documentation are sufficient for
eliciting proper tool usage, achieving performance on par with few-shot
prompts. Second, on a newly collected realistic tool-use dataset with hundreds
of available tool APIs, we show that tool documentation is significantly more
valuable than demonstrations, with zero-shot documentation significantly
outperforming few-shot without documentation. Third, we highlight the benefits
of tool documentations by tackling image generation and video tracking using
just-released unseen state-of-the-art models as tools. Finally, we highlight
the possibility of using tool documentation to automatically enable new
applications: by using nothing more than the documentation of GroundingDino,
Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the
just-released Grounded-SAM and Track Anything models.
- Abstract(参考訳): 現在、大きな言語モデル(LLM)は、ツールの使用例をいくつか示すことで、新しいツールを使用するように教えられている。
残念なことに、デモは入手が難しく、間違ったデモが選択された場合、望ましくない偏見のある使用になる可能性がある。
デモが容易に利用できる稀なシナリオであっても、提供すべき数と提供すべきものを決定するための原則的な選択プロトコルは存在しない。
タスクが複雑化するにつれて、選択検索は組合せ的に増加し、常に難解になる。
私たちの仕事はデモの代替となるツールドキュメントを提供しています。
デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
我々は,視覚と言語の両方にまたがる6つの課題に関する3つの主要な経験的発見を通して,我々の主張を裏付ける。
まず、既存のベンチマークでは、ツールドキュメンテーションのみによるゼロショットプロンプトは、適切なツールの使用を誘発するのに十分であり、少ないプロンプトと同等のパフォーマンスを達成する。
第2に、数百のツールapiが利用可能な、新たに収集された現実的なツール利用データセットでは、ツールドキュメントがデモよりもはるかに価値が高いことを示します。
第3に,ツールとして公開された未公開の最先端モデルを用いて,画像生成と動画追跡に取り組むことで,ツールドキュメントのメリットを強調する。
最後に、ツールドキュメンテーションを使用して、新しいアプリケーションを自動で有効にできる可能性を強調します。 GroundingDino、Stable Diffusion、XMem、SAMのドキュメントだけを使用することで、LLMは、リリースされたばかりの Grounded-SAM と Track Anything モデルの機能を再発明することができます。
関連論文リスト
- Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。
我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。
評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-03T22:49:27Z) - Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - ToolNet: Connecting Large Language Models with Massive Tools via Tool
Graph [43.95759808077083]
既存のテキスト内学習アプローチは、ツールを単純なテキスト記述のリストにフォーマットし、大きな言語モデルに入力する。
本稿では,トークン消費を適度に増加させ,ツールの数を数千にスケールアップするプラグイン・アンド・プレイ・フレームワークであるToolNetを提案する。
論文 参考訳(メタデータ) (2024-02-29T02:04:00Z) - EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。
トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-01-11T15:45:11Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use
Tools and Which to Use [82.24774504584066]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z) - Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。
Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文 参考訳(メタデータ) (2023-02-09T16:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。