論文の概要: Toolformer: Language Models Can Teach Themselves to Use Tools
- arxiv url: http://arxiv.org/abs/2302.04761v1
- Date: Thu, 9 Feb 2023 16:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 15:06:46.239013
- Title: Toolformer: Language Models Can Teach Themselves to Use Tools
- Title(参考訳): Toolformer: 言語モデルを使ってツールを学べる
- Authors: Timo Schick, Jane Dwivedi-Yu, Roberto Dess\`i, Roberta Raileanu, Maria
Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom
- Abstract要約: 言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。
Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
- 参考スコア(独自算出の注目度): 62.04867424598204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) exhibit remarkable abilities to solve new tasks from
just a few examples or textual instructions, especially at scale. They also,
paradoxically, struggle with basic functionality, such as arithmetic or factual
lookup, where much simpler and smaller models excel. In this paper, we show
that LMs can teach themselves to use external tools via simple APIs and achieve
the best of both worlds. We introduce Toolformer, a model trained to decide
which APIs to call, when to call them, what arguments to pass, and how to best
incorporate the results into future token prediction. This is done in a
self-supervised way, requiring nothing more than a handful of demonstrations
for each API. We incorporate a range of tools, including a calculator, a Q\&A
system, two different search engines, a translation system, and a calendar.
Toolformer achieves substantially improved zero-shot performance across a
variety of downstream tasks, often competitive with much larger models, without
sacrificing its core language modeling abilities.
- Abstract(参考訳): 言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
パラドックス的にも、算術や事実のルックアップといった基本的な機能に苦労し、もっとシンプルで小さなモデルが優れている。
本稿では,LMがシンプルなAPIを通じて外部ツールの使用を自覚し,両世界のベストを達成できることを示す。
これは、どのapiを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測にどのように組み込むかを決めるように訓練されたモデルです。
これは自己管理的な方法で行われ、各APIに対してほんの少しのデモしか必要としない。
計算機,Q&Aシステム,2つの異なる検索エンジン,翻訳システム,カレンダーなど,さまざまなツールが組み込まれています。
toolformerは、さまざまなダウンストリームタスクにおけるゼロショットパフォーマンスを大幅に改善し、コア言語モデリング能力を犠牲にすることなく、より大きなモデルと競合することが多い。
関連論文リスト
- ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - Learning Generalizable Tool-use Skills through Trajectory Generation [14.523879777439067]
本稿では,ツール利用トラジェクトリの生成モデルを点雲列として学習することを提案する。
ツール使用軌跡を生成し、ツールポーズのシーケンスを最適化し、生成された軌跡と整合する。
本モデルでは,タスク毎に1つのツールからサンプルデータをトレーニングし,様々な新しいツールに一般化することができる。
論文 参考訳(メタデータ) (2023-09-29T21:32:42Z) - Tool Documentation Enables Zero-Shot Tool-Usage with Large Language
Models [90.96816639172464]
大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。
デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
論文 参考訳(メタデータ) (2023-08-01T17:21:38Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z) - Making Language Models Better Tool Learners with Execution Feedback [36.30542737293863]
ツールは、人間が環境を理解し、形を変えることができる重要なインターフェースとして機能する。
既存のツール学習手法は、ツールを無差別に活用するために大きな言語モデルを誘導する。
ツール実行からのフィードバックを通じてモデルを継続的に学習することを可能にする2段階のエンドツーエンドフレームワークであるTool leaRning wIth exeCution fEedback (TRICE)を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:37:05Z) - ART: Automatic multi-step reasoning and tool-use for large language
models [105.57550426609396]
大規模言語モデル(LLM)は、数秒とゼロショットの設定で複雑な推論を行うことができる。
各推論ステップは、コアLLM機能を超えて計算をサポートする外部ツールに依存することができる。
プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。
論文 参考訳(メタデータ) (2023-03-16T01:04:45Z) - Code Generation Tools (Almost) for Free? A Study of Few-Shot,
Pre-Trained Language Models on Code [13.15617135394116]
大規模で事前訓練された言語モデルによるショットラーニングは、コードに関する質問に答える強力な方法だ。
本稿では,現在最先端の事前訓練済みの言語モデルであるCodexがこの目的をどの程度果たすかを検討する。
論文 参考訳(メタデータ) (2022-06-02T23:15:42Z) - TALM: Tool Augmented Language Models [28.483609366116525]
トランスフォーマーベース言語モデル(LM)は、様々なタスクにまたがるスケールによるパフォーマンス向上を示す。
本稿では,ツール拡張言語モデル(Tool Augmented Language Models,TALM)を提案する。
TALMは知識量の多いQAタスクと単純なツールによる推論指向の数学タスクの両方に強い性能を示す。
論文 参考訳(メタデータ) (2022-05-24T17:58:13Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。