論文の概要: SEAL: Suite for Evaluating API-use of LLMs
- arxiv url: http://arxiv.org/abs/2409.15523v1
- Date: Mon, 23 Sep 2024 20:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 12:47:38.622663
- Title: SEAL: Suite for Evaluating API-use of LLMs
- Title(参考訳): SEAL: LLMのAPI利用評価スイート
- Authors: Woojeong Kim, Ashish Jagmohan, Aditya Vempaty,
- Abstract要約: SEALは、現実世界のAPI使用時に大きな言語モデルを評価するように設計されたエンドツーエンドのテストベッドである。
既存のベンチマークを標準化し、API検索と計画をテストするエージェントシステムを統合し、リアルタイムAPIの不安定性に対処する。
- 参考スコア(独自算出の注目度): 1.2528321519119252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have limitations in handling tasks that require real-time access to external APIs. While several benchmarks like ToolBench and APIGen have been developed to assess LLMs' API-use capabilities, they often suffer from issues such as lack of generalizability, limited multi-step reasoning coverage, and instability due to real-time API fluctuations. In this paper, we introduce SEAL, an end-to-end testbed designed to evaluate LLMs in real-world API usage. SEAL standardizes existing benchmarks, integrates an agent system for testing API retrieval and planning, and addresses the instability of real-time APIs by introducing a GPT-4-powered API simulator with caching for deterministic evaluations. Our testbed provides a comprehensive evaluation pipeline that covers API retrieval, API calls, and final responses, offering a reliable framework for structured performance comparison in diverse real-world scenarios. SEAL is publicly available, with ongoing updates for new benchmarks.
- Abstract(参考訳): 大きな言語モデル(LLM)は、外部APIへのリアルタイムアクセスを必要とするタスクの処理に制限がある。
ToolBenchやAPIGenといったいくつかのベンチマークは、LLMのAPI使用能力を評価するために開発されているが、一般化性の欠如、マルチステップ推論カバレッジの制限、リアルタイムAPIの変動による不安定といった問題に悩まされることが多い。
本稿では,実世界のAPI利用におけるLLMの評価を目的としたエンドツーエンドテストベッドであるSEALを紹介する。
SEALは既存のベンチマークを標準化し、API検索と計画のためのエージェントシステムを統合し、決定論的評価のためのキャッシュを備えたGPT-4ベースのAPIシミュレータを導入して、リアルタイムAPIの不安定性に対処する。
私たちのテストベッドは、API検索、API呼び出し、最終応答をカバーする包括的な評価パイプラインを提供し、さまざまな実世界のシナリオにおいて、構造化されたパフォーマンス比較のための信頼性の高いフレームワークを提供します。
SEALは公開されており、新しいベンチマークのアップデートが進行中である。
関連論文リスト
- A Multi-Agent Approach for REST API Testing with Semantic Graphs and LLM-Driven Inputs [46.65963514391019]
私たちは、REST APIテストに依存性組み込みのマルチエージェントアプローチを採用する最初のブラックボックスフレームワークであるAutoRestTestを紹介します。
MARL(Multi-Agent Reinforcement Learning)とSPDG(Semantic Property Dependency Graph)とLLM(Large Language Models)を統合した。
このアプローチでは、REST APIテストを、API、依存性、パラメータ、バリューという4つのエージェントが協力して、API探索を最適化する、分離可能な問題として扱います。
論文 参考訳(メタデータ) (2024-11-11T16:20:27Z) - AutoFeedback: An LLM-based Framework for Efficient and Accurate API Request Generation [16.590226868986296]
AutoFeedbackは、効率的で正確なAPIリクエスト生成のためのフレームワークである。
大規模言語モデルによるAPIリクエストの生成プロセス中に2つのフィードバックループを実装している。
実際のAPIデータセットで100.00%の精度を実現し、GPT-3.5 Turboとのインタラクションコストを23.44%削減し、GPT-4 Turboを11.85%削減する。
論文 参考訳(メタデータ) (2024-10-09T14:38:28Z) - A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。
大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文 参考訳(メタデータ) (2024-09-20T03:12:35Z) - NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls [18.831512738668792]
API呼び出しのネストシーケンスに基づいて,大規模言語モデル(LLM)を評価するベンチマークであるNESTFULを提案する。
その結果,ほとんどのモデルではNESTFULのネストしたAPIでは,既存のベンチマークで利用可能なより単純な問題設定では,性能が良くないことがわかった。
論文 参考訳(メタデータ) (2024-09-04T17:53:24Z) - FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。
既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。
本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T23:44:02Z) - ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents [7.166156709980112]
我々は、APIベースのエージェントの包括的な評価のための大規模なベンチマークであるtextscShortcutsBenchを紹介する。
textscShortcutsBenchには、Apple Inc.のオペレーティングシステムから多くの真のAPIが含まれている。
評価の結果,APIの選択やパラメータの充足,システムやユーザからの必要な情報要求など,複雑なクエリを扱う上での重大な制限が明らかになった。
論文 参考訳(メタデータ) (2024-06-28T08:45:02Z) - A Solution-based LLM API-using Methodology for Academic Information Seeking [49.096714812902576]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。
ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。
その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文 参考訳(メタデータ) (2024-05-24T02:44:14Z) - StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models [74.88844320554284]
ToolBenchから進化したベンチマークであるStableToolBenchを紹介します。
仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。
安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。
論文 参考訳(メタデータ) (2024-03-12T14:57:40Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。