論文の概要: Gorilla: Large Language Model Connected with Massive APIs
- arxiv url: http://arxiv.org/abs/2305.15334v1
- Date: Wed, 24 May 2023 16:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:10:26.241886
- Title: Gorilla: Large Language Model Connected with Massive APIs
- Title(参考訳): Gorilla: 大きな言語モデルと大規模API
- Authors: Shishir G. Patil, Tianjun Zhang, Xin Wang, Joseph E. Gonzalez
- Abstract要約: APIコールの記述において,GorillaはGPT-4の性能を上回る微調整のLLaMAモデルである。
モデルの能力を評価するために、HuggingFace、TorchHub、APIHubで構成される包括的なデータセットであるAPIBenchを紹介します。
検索システムとゴリラの統合が成功したことは、LLMがより正確にツールを使用する可能性を示している。
- 参考スコア(独自算出の注目度): 24.665632055927684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have seen an impressive wave of advances
recently, with models now excelling in a variety of tasks, such as mathematical
reasoning and program synthesis. However, their potential to effectively use
tools via API calls remains unfulfilled. This is a challenging task even for
today's state-of-the-art LLMs such as GPT-4, largely due to their inability to
generate accurate input arguments and their tendency to hallucinate the wrong
usage of an API call. We release Gorilla, a finetuned LLaMA-based model that
surpasses the performance of GPT-4 on writing API calls. When combined with a
document retriever, Gorilla demonstrates a strong capability to adapt to
test-time document changes, enabling flexible user updates or version changes.
It also substantially mitigates the issue of hallucination, commonly
encountered when prompting LLMs directly. To evaluate the model's ability, we
introduce APIBench, a comprehensive dataset consisting of HuggingFace,
TorchHub, and TensorHub APIs. The successful integration of the retrieval
system with Gorilla demonstrates the potential for LLMs to use tools more
accurately, keep up with frequently updated documentation, and consequently
increase the reliability and applicability of their outputs. Gorilla's code,
model, data, and demo are available at https://gorilla.cs.berkeley.edu
- Abstract(参考訳): 大規模言語モデル(llm)は最近、数学的推論やプログラム合成など、様々なタスクに優れたモデルによって、印象的な進歩を遂げている。
しかし、API呼び出しによる効果的なツール使用の可能性は、まだ満たされていない。
GPT-4のような現在の最先端のLCMでも、正確な入力引数を生成できないことと、API呼び出しの間違った使用を幻覚させる傾向のため、これは難しいタスクである。
APIコールの記述において,GorillaはGPT-4の性能を上回る微調整のLLaMAモデルである。
ドキュメントレトリバーと組み合わせると、gorillaはテスト時のドキュメント変更に適応する強力な能力を示し、柔軟なユーザー更新やバージョン変更を可能にする。
また、llmを直接促す際によく発生する幻覚の問題を実質的に軽減する。
モデルの能力を評価するために、HuggingFace、TorchHub、TensorHub APIからなる包括的なデータセットであるAPIBenchを紹介します。
検索システムをGorillaとうまく統合することで、LCMがツールをより正確に使用し、頻繁に更新されたドキュメントに追従し、その結果、出力の信頼性と適用性を高める可能性が示される。
gorillaのコード、モデル、データ、デモはhttps://gorilla.cs.berkeley.eduで利用可能である。
関連論文リスト
- NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls [18.831512738668792]
API呼び出しのネストシーケンスに基づいて,大規模言語モデル(LLM)を評価するベンチマークであるNESTFULを提案する。
その結果,ほとんどのモデルではNESTFULのネストしたAPIでは,既存のベンチマークで利用可能なより単純な問題設定では,性能が良くないことがわかった。
論文 参考訳(メタデータ) (2024-09-04T17:53:24Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Octopus: On-device language model for function calling of software APIs [9.78611123915888]
大きな言語モデル(LLM)は、高度なテキスト処理と生成能力のために重要な役割を果たす。
本研究は,ソフトウェアAPIの起動において,デバイス上でのLCMを活用するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T01:29:28Z) - De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding [18.129031749321058]
公開ソースコードのデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、コード生成タスクにおける新たな最先端技術を確立した。
LLMは、主に特定のプロジェクトに存在するコードに気づいていないため、モデルが既存のAPIをうまく利用できない。
本稿では,適切なAPI参照を検索する新たな組み合わせにより,LLMの予測を基礎とするDe-Hallucinatorを提案する。
論文 参考訳(メタデータ) (2024-01-03T12:09:43Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。
Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文 参考訳(メタデータ) (2023-02-09T16:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。