Fugu-MT 論文翻訳(概要): Gorilla: Large Language Model Connected with Massive APIs

論文の概要: Gorilla: Large Language Model Connected with Massive APIs

arxiv url: http://arxiv.org/abs/2305.15334v1
Date: Wed, 24 May 2023 16:48:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 14:10:26.241886
Title: Gorilla: Large Language Model Connected with Massive APIs
Title（参考訳）: Gorilla: 大きな言語モデルと大規模API
Authors: Shishir G. Patil, Tianjun Zhang, Xin Wang, Joseph E. Gonzalez
Abstract要約: APIコールの記述において,GorillaはGPT-4の性能を上回る微調整のLLaMAモデルである。モデルの能力を評価するために、HuggingFace、TorchHub、APIHubで構成される包括的なデータセットであるAPIBenchを紹介します。検索システムとゴリラの統合が成功したことは、LLMがより正確にツールを使用する可能性を示している。
参考スコア（独自算出の注目度）: 24.665632055927684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have seen an impressive wave of advances recently, with models now excelling in a variety of tasks, such as mathematical reasoning and program synthesis. However, their potential to effectively use tools via API calls remains unfulfilled. This is a challenging task even for today's state-of-the-art LLMs such as GPT-4, largely due to their inability to generate accurate input arguments and their tendency to hallucinate the wrong usage of an API call. We release Gorilla, a finetuned LLaMA-based model that surpasses the performance of GPT-4 on writing API calls. When combined with a document retriever, Gorilla demonstrates a strong capability to adapt to test-time document changes, enabling flexible user updates or version changes. It also substantially mitigates the issue of hallucination, commonly encountered when prompting LLMs directly. To evaluate the model's ability, we introduce APIBench, a comprehensive dataset consisting of HuggingFace, TorchHub, and TensorHub APIs. The successful integration of the retrieval system with Gorilla demonstrates the potential for LLMs to use tools more accurately, keep up with frequently updated documentation, and consequently increase the reliability and applicability of their outputs. Gorilla's code, model, data, and demo are available at https://gorilla.cs.berkeley.edu
Abstract（参考訳）: 大規模言語モデル(llm)は最近、数学的推論やプログラム合成など、様々なタスクに優れたモデルによって、印象的な進歩を遂げている。しかし、API呼び出しによる効果的なツール使用の可能性は、まだ満たされていない。 GPT-4のような現在の最先端のLCMでも、正確な入力引数を生成できないことと、API呼び出しの間違った使用を幻覚させる傾向のため、これは難しいタスクである。 APIコールの記述において,GorillaはGPT-4の性能を上回る微調整のLLaMAモデルである。ドキュメントレトリバーと組み合わせると、gorillaはテスト時のドキュメント変更に適応する強力な能力を示し、柔軟なユーザー更新やバージョン変更を可能にする。また、llmを直接促す際によく発生する幻覚の問題を実質的に軽減する。モデルの能力を評価するために、HuggingFace、TorchHub、TensorHub APIからなる包括的なデータセットであるAPIBenchを紹介します。検索システムをGorillaとうまく統合することで、LCMがツールをより正確に使用し、頻繁に更新されたドキュメントに追従し、その結果、出力の信頼性と適用性を高める可能性が示される。 gorillaのコード、モデル、データ、デモはhttps://gorilla.cs.berkeley.eduで利用可能である。

関連論文リスト

Identifying and Mitigating API Misuse in Large Language Models [26.4403427473915]
大規模言語モデル(LLM)が生成するコードのAPI誤用は、ソフトウェア開発において深刻な課題となっている。本稿では LLM 生成コードにおける API の誤用パターンについて,Python および Java 間でのメソッド選択とパラメータ使用法の両方を解析し,総合的研究を行った。上記の分類に基づくAPI誤用に対する新しいLCMベースの自動プログラム修復手法であるDr.Fixを提案する。
論文参考訳（メタデータ） (2025-03-28T18:43:12Z)
Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文参考訳（メタデータ） (2025-01-08T07:07:22Z)
NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls [18.831512738668792]
API呼び出しのネストシーケンスに基づいて,大規模言語モデル(LLM)を評価するベンチマークであるNESTFULを提案する。その結果,ほとんどのモデルではNESTFULのネストしたAPIでは,既存のベンチマークで利用可能なより単純な問題設定では,性能が良くないことがわかった。
論文参考訳（メタデータ） (2024-09-04T17:53:24Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
LLMs Meet Library Evolution: Evaluating Deprecated API Usage in LLM-based Code Completion [13.633501449498402]
APIの使用を分解することは、大規模言語モデル(LLM)ベースのコード補完の問題である。この研究には、7つの高度なLLM、人気のあるPythonライブラリの145のAPIマッピング、28125の補完プロンプトが含まれていた。本稿では,REPLACEAPIとINSERTPROMPTの2つの軽量固定手法を提案する。
論文参考訳（メタデータ） (2024-06-14T08:44:10Z)
Octopus: On-device language model for function calling of software APIs [9.78611123915888]
大きな言語モデル(LLM)は、高度なテキスト処理と生成能力のために重要な役割を果たす。本研究は,ソフトウェアAPIの起動において,デバイス上でのLCMを活用するための新たな戦略を提案する。
論文参考訳（メタデータ） (2024-04-02T01:29:28Z)
De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding [18.129031749321058]
公開ソースコードのデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、コード生成タスクにおける新たな最先端技術を確立した。 LLMは、主に特定のプロジェクトに存在するコードに気づいていないため、モデルが既存のAPIをうまく利用できない。本稿では,適切なAPI参照を検索する新たな組み合わせにより,LLMの予測を基礎とするDe-Hallucinatorを提案する。
論文参考訳（メタデータ） (2024-01-03T12:09:43Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文参考訳（メタデータ） (2023-07-31T15:56:53Z)
Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文参考訳（メタデータ） (2023-07-28T07:43:13Z)
Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文参考訳（メタデータ） (2023-02-09T16:49:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。