Fugu-MT 論文翻訳(概要): ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents

論文の概要: ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents

arxiv url: http://arxiv.org/abs/2407.00132v3
Date: Thu, 23 Jan 2025 11:22:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 19:17:06.99463
Title: ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents
Title（参考訳）: ShortcutsBench: APIベースのエージェントのための大規模実世界のベンチマーク
Authors: Haiyang Shen, Yue Li, Desong Meng, Dongqi Cai, Sheng Qi, Li Zhang, Mengwei Xu, Yun Ma,
Abstract要約: textscShortcutsBenchは、実世界の複雑なタスクを解決するためのAPIベースのエージェントの包括的な評価のためのベンチマークである。 textscShortcutsBenchには、Apple Inc.の豊富な実際のAPI、洗練されたユーザクエリ、人間のアノテーションによる高品質なアクションシーケンス、詳細なパラメータフィリング値、システムやユーザから必要な入力を要求するパラメータが含まれている。
参考スコア（独自算出の注目度）: 7.166156709980112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in integrating large language models (LLMs) with application programming interfaces (APIs) have gained significant interest in both academia and industry. Recent work demonstrates that these API-based agents exhibit relatively strong autonomy and planning capabilities. However, their ability to handle multi-dimensional difficulty levels, diverse task types, and real-world demands remains unknown. In this paper, we introduce \textsc{ShortcutsBench}, a large-scale benchmark for the comprehensive evaluation of API-based agents in solving real-world complex tasks. \textsc{ShortcutsBench} includes a wealth of real APIs from Apple Inc., refined user queries, human-annotated high-quality action sequences, detailed parameter filling values, and parameters requesting necessary input from the system or user. We revealed how existing benchmarks~/~datasets struggle to accommodate the advanced reasoning capabilities of existing more intelligent LLMs. Moreover, our extensive evaluation of agents built with $5$ leading open-source (size $\geq$ 57B) and $5$ closed-source LLMs (e.g. Gemini-1.5-Pro and GPT-4o-mini) with varying intelligence level reveals significant limitations of existing API-based agents in the whole process of handling complex queries related to API selection, parameter filling, and requesting necessary input from the system and the user. These findings highlight the great challenges that API-based agents face in effectively fulfilling real and complex user queries. All datasets, code, experimental logs, and results are available at \url{https://github.com/EachSheep/ShortcutsBench}.
Abstract（参考訳）: 大規模言語モデル(LLM)とアプリケーションプログラミングインターフェース(API)の統合の最近の進歩は、アカデミックと産業の両方において大きな関心を集めている。最近の研究は、これらのAPIベースのエージェントが比較的強力な自律性と計画能力を持っていることを示している。しかし、多次元の難易度、多様なタスクタイプ、実世界の要求を扱う能力は未だ不明である。本稿では,実世界の複雑なタスクを解く上で,APIベースのエージェントを包括的に評価するための大規模ベンチマークである‘textsc{ShortcutsBench} を紹介する。 \textsc{ShortcutsBench} には,Apple Inc. の豊富な実API,洗練されたユーザクエリ,人間のアノテーションによる高品質なアクションシーケンス,詳細なパラメータ充填値,システムやユーザから必要な入力を要求するパラメータなどが含まれている。既存のベンチマークとデータセットが、既存のよりインテリジェントなLCMの高度な推論能力にどのように適合するかを明らかにした。さらに、インテリジェンスレベルの異なる5ドルのオープンソース($\geq$57B)と5ドルのクローズドソースLCM(例:Gemini-1.5-ProとGPT-4o-mini)で構築されたエージェントの広範な評価は、API選択、パラメータフィリング、システムとユーザからの必要な入力要求に関する複雑なクエリを処理するプロセス全体において、既存のAPIベースのエージェントの重大な制限を明らかにします。これらの発見は、実際の複雑なユーザクエリを効果的に実行する上で、APIベースのエージェントが直面する大きな課題を浮き彫りにする。すべてのデータセット、コード、実験的なログ、そして結果は、 \url{https://github.com/EachSheep/ShortcutsBench}で入手できる。

関連論文リスト

Agent-Diff: Benchmarking LLM Agents on Enterprise API Tasks via Code Execution with State-Diff-Based Evaluation [0.0]
Agent-Diffは、エージェント言語モデル(LLM)を、外部API経由でコードを実行する現実世界のタスクで評価するためのベンチマークフレームワークである。エンタープライズソフトウェアを利用する224のタスクにまたがる9つのLLMのベンチマークを提供する。また、ベンチマークパフォーマンスにおけるAPIドキュメントへのアクセスの寄与を評価するために、アブレーション実験によるフレームワークの堅牢性を評価する。
論文参考訳（メタデータ） (2026-02-11T13:31:18Z)
Beyond Perfect APIs: A Comprehensive Evaluation of LLM Agents Under Real-World API Complexity [47.06691411108029]
本研究では,大規模言語モデル(LLM)エージェントの関数呼び出し機能を評価するためのベンチマークであるWildAGTEvalを紹介する。
論文参考訳（メタデータ） (2026-01-01T09:19:20Z)
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。 OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文参考訳（メタデータ） (2025-06-10T15:59:38Z)
A Framework for Testing and Adapting REST APIs as LLM Tools [5.758488787763118]
エージェントのツールとして機能するREST APIの評価と拡張を目的とした,新しいテストフレームワークを提案する。当社のフレームワークはapisをツールとして変換し、APIの包括的なテストケースを生成し、ケースを自然言語命令に変換し、エージェントがAPIを正しく呼び出し、そのインプットとレスポンスを処理する能力を評価する。
論文参考訳（メタデータ） (2025-04-22T02:52:08Z)
Test Amplification for REST APIs via Single and Multi-Agent LLM Systems [1.6499388997661122]
単一エージェントとマルチエージェントのLLMシステムがREST APIテストスイートを増幅する方法について示す。評価では、APIカバレッジの向上、テスト中のAPIの多数のバグの特定、および両アプローチの計算コストとエネルギー消費に関する洞察を示す。
論文参考訳（メタデータ） (2025-04-10T20:19:50Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
CallNavi, A Challenge and Empirical Study on LLM Function Calling and Routing [7.443502461016052]
この研究は、AIベースのソフトウェア開発の評価と評価に貢献する。 API関数の選択、パラメータ生成、ネストされたAPI実行のために特別に設計された新しいベンチマーク。最先端言語モデルの実証評価とその性能解析 APIルーティングに対するハイブリッドアプローチは、API選択のための汎用的な大規模言語モデルと、微調整されたモデルと、迅速なエンジニアリングを組み合わせたものだ。
論文参考訳（メタデータ） (2025-01-09T14:12:43Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
SEAL: Suite for Evaluating API-use of LLMs [1.2528321519119252]
SEALは、現実世界のAPI使用時に大きな言語モデルを評価するように設計されたエンドツーエンドのテストベッドである。既存のベンチマークを標準化し、API検索と計画をテストするエージェントシステムを統合し、リアルタイムAPIの不安定性に対処する。
論文参考訳（メタデータ） (2024-09-23T20:16:49Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文参考訳（メタデータ） (2024-07-18T23:44:02Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
LLM-based Frameworks for API Argument Filling in Task-Oriented Conversational Systems [39.54340884416936]
本稿では,Large Language Models (LLMs) のAPI引数充足問題への適用について検討する。提案手法と組み合わせることで, LLMの引数充足性能が顕著に向上することを示す。
論文参考訳（メタデータ） (2024-06-27T06:54:53Z)
Semantic API Alignment: Linking High-level User Goals to APIs [6.494714497852088]
既存のライブラリを使った要件エンジニアリングから実装まで,複数のステップにまたがるビジョンを提示する。このアプローチは、セマンティックAPIアライメント(SEAL)と呼ばれ、ユーザの高レベルな目標と1つ以上のAPIの特定の機能とのギャップを埋めることを目的としています。
論文参考訳（メタデータ） (2024-05-07T11:54:32Z)
Octopus: On-device language model for function calling of software APIs [9.78611123915888]
大きな言語モデル(LLM)は、高度なテキスト処理と生成能力のために重要な役割を果たす。本研究は,ソフトウェアAPIの起動において,デバイス上でのLCMを活用するための新たな戦略を提案する。
論文参考訳（メタデータ） (2024-04-02T01:29:28Z)
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs [28.840207102132286]
既存のデータセットを特定し、キュレーションし、変換するタスクに重点を置いています。ツール拡張LDMのトレーニングと体系的なテストを行うための大規模なコーパスであるAPI-BLENDを紹介する。トレーニングとベンチマークの両方の目的で,API-BLENDデータセットの有用性を実証する。
論文参考訳（メタデータ） (2024-02-23T18:30:49Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Adaptive REST API Testing with Reinforcement Learning [54.68542517176757]
現在のテストツールは効率的な探索機構がなく、全ての操作とパラメータを等しく扱う。現在のツールは、仕様にレスポンススキーマがない場合や、変種を示す場合に苦労している。我々は、強化学習を取り入れた適応型REST APIテスト手法を提案し、探索中の操作を優先順位付けする。
論文参考訳（メタデータ） (2023-09-08T20:27:05Z)
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文参考訳（メタデータ） (2023-07-31T15:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。