論文の概要: TALM: Tool Augmented Language Models
- arxiv url: http://arxiv.org/abs/2205.12255v1
- Date: Tue, 24 May 2022 17:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 12:48:59.766703
- Title: TALM: Tool Augmented Language Models
- Title(参考訳): TALM: ツール拡張言語モデル
- Authors: Aaron Parisi, Yao Zhao, Noah Fiedel
- Abstract要約: トランスフォーマーベース言語モデル(LM)は、様々なタスクにまたがるスケールによるパフォーマンス向上を示す。
本稿では,ツール拡張言語モデル(Tool Augmented Language Models,TALM)を提案する。
TALMは知識量の多いQAタスクと単純なツールによる推論指向の数学タスクの両方に強い性能を示す。
- 参考スコア(独自算出の注目度): 28.483609366116525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer based language models (LMs) demonstrate increasing performance
with scale across a wide variety of tasks. Scale alone however cannot enable
models to solve tasks that require access to ephemeral, changing, or private
data that was unavailable at training time. Many useful tasks may also benefit
from LMs being able to access APIs that read or modify state. In this work, we
present Tool Augmented Language Models (TALM), combining a text-only approach
to augment language models with non-differentiable tools, and an iterative
"self-play" technique to bootstrap performance starting from few tool
demonstrations. TALM exhibits strong performance on both a knowledge-heavy QA
task and a reasoning oriented math task with simple tools. At a given model
scale, TALM significantly outperforms non-augmented LMs. We further demonstrate
that TALM successfully performs out-of-distribution inferences on both QA and
math tasks, where non-augmented LMs fail. Our results suggest that Tool
Augmented Language Models are a promising direction to enrich LMs'
capabilities, with less dependence on scale.
- Abstract(参考訳): トランスフォーマーベース言語モデル(LM)は、様々なタスクにまたがるスケールによるパフォーマンス向上を示す。
しかし、スケールだけでは、トレーニング時に利用できなかった短命、変更、プライベートデータへのアクセスを必要とするタスクをモデルが解決できない。
多くの便利なタスクは、状態の読み書きを行うapiにアクセスできるlmsの恩恵を受けるかもしれない。
本稿では,テキストのみによる言語モデル拡張手法と非微分可能ツールの併用と,少数のツールデモからパフォーマンスをブートストラップする反復的自己再生手法を組み合わせたツール拡張言語モデル(talm)を提案する。
TALMは知識量の多いQAタスクと単純なツールによる推論指向の数学タスクの両方に強い性能を示す。
与えられたモデルスケールでは、TALMは拡張されていないLMを著しく上回る。
さらに,非拡張LMがフェールするQAタスクと数学タスクの両方において,TALMがアウト・オブ・ディストリビューション推論を成功させることを示す。
この結果から,ツール拡張言語モデルがLMの能力を高める上で有望な方向であり,スケールへの依存度が低いことが示唆された。
関連論文リスト
- LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning
of Large Language Models [78.65241926912663]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。
Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文 参考訳(メタデータ) (2023-02-09T16:49:57Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。