論文の概要: Beyond Perfect APIs: A Comprehensive Evaluation of LLM Agents Under Real-World API Complexity
- arxiv url: http://arxiv.org/abs/2601.00268v1
- Date: Thu, 01 Jan 2026 09:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.348405
- Title: Beyond Perfect APIs: A Comprehensive Evaluation of LLM Agents Under Real-World API Complexity
- Title(参考訳): Beyond Perfect API: 実世界のAPI複雑性下でのLLMエージェントの総合評価
- Authors: Doyoung Kim, Zhiwei Ren, Jie Hao, Zhongkai Sun, Lichao Wang, Xiyao Ma, Zack Ye, Xu Han, Jun Yin, Heng Ji, Wei Shen, Xing Fan, Benjamin Yao, Chenlei Guo,
- Abstract要約: 本研究では,大規模言語モデル(LLM)エージェントの関数呼び出し機能を評価するためのベンチマークであるWildAGTEvalを紹介する。
- 参考スコア(独自算出の注目度): 47.06691411108029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WildAGTEval, a benchmark designed to evaluate large language model (LLM) agents' function-calling capabilities under realistic API complexity. Unlike prior work that assumes an idealized API system and disregards real-world factors such as noisy API outputs, WildAGTEval accounts for two dimensions of real-world complexity: 1. API specification, which includes detailed documentation and usage constraints, and 2. API execution, which captures runtime challenges. Consequently, WildAGTEval offers (i) an API system encompassing 60 distinct complexity scenarios that can be composed into approximately 32K test configurations, and (ii) user-agent interactions for evaluating LLM agents on these scenarios. Using WildAGTEval, we systematically assess several advanced LLMs and observe that most scenarios are challenging, with irrelevant information complexity posing the greatest difficulty and reducing the performance of strong LLMs by 27.3%. Furthermore, our qualitative analysis reveals that LLMs occasionally distort user intent merely to claim task completion, critically affecting user satisfaction.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)エージェントの関数呼び出し機能を評価するためのベンチマークであるWildAGTEvalを紹介する。
理想化されたAPIシステムを想定し、ノイズの多いAPI出力のような現実世界の要因を無視した以前の作業とは異なり、WildAGTEvalは2次元の現実の複雑さを論じている。
詳細なドキュメンテーションと使用制限を含むAPI仕様。
実行時の課題をキャプチャするAPI実行。
結果としてWildAGTEvalが提供
i) 約32Kのテスト構成で構成された60の異なる複雑性シナリオを含むAPIシステム。
(2)これらのシナリオにおけるLCMエージェントの評価のためのユーザエージェントインタラクション。
WildAGTEvalを用いて、いくつかの高度なLCMを体系的に評価し、ほとんどのシナリオが困難であることを観察する。
さらに, 定性的分析の結果, LLMは単にタスク完了を主張するだけのユーザ意図を歪曲し, ユーザの満足度に重大な影響を与えていることが明らかとなった。
関連論文リスト
- Evaluating LLMs on Sequential API Call Through Automated Test Generation [10.621357661774244]
StateGenは、シーケンシャルなAPIインタラクションを含む多様なコーディングタスクを生成するように設計された、自動化されたフレームワークである。
3つの代表的なシナリオにまたがる120の検証済みのテストケースを含むベンチマークであるStateEvalを構築します。
実験の結果、StateGenは挑戦的で現実的なAPI指向のタスクを効果的に生成できることを確認した。
論文 参考訳(メタデータ) (2025-07-13T03:52:51Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [64.70546873396624]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - A Framework for Testing and Adapting REST APIs as LLM Tools [11.757827071584737]
大きな言語モデル(LLM)は、外部ツールで複雑なタスクを実行する自律エージェントを構築するために、ますます使われています。
現在のベンチマークではこれらの課題を見落としており、エージェント駆動自動化のためのAPI準備性の評価のギャップが残っている。
LLMエージェント用のPythonツールとしてラップされたエンタープライズAPIを体系的に評価するテストフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T02:52:08Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。
実験の結果、ExploreaCoderは、事前のAPI知識に欠けるモデルのパフォーマンスを大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-12-06T19:00:15Z) - SEAL: Suite for Evaluating API-use of LLMs [1.2528321519119252]
SEALは、現実世界のAPI使用時に大きな言語モデルを評価するように設計されたエンドツーエンドのテストベッドである。
既存のベンチマークを標準化し、API検索と計画をテストするエージェントシステムを統合し、リアルタイムAPIの不安定性に対処する。
論文 参考訳(メタデータ) (2024-09-23T20:16:49Z) - ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents [7.166156709980112]
textscShortcutsBenchは、実世界の複雑なタスクを解決するためのAPIベースのエージェントの包括的な評価のためのベンチマークである。
textscShortcutsBenchには、Apple Inc.の豊富な実際のAPI、洗練されたユーザクエリ、人間のアノテーションによる高品質なアクションシーケンス、詳細なパラメータフィリング値、システムやユーザから必要な入力を要求するパラメータが含まれている。
論文 参考訳(メタデータ) (2024-06-28T08:45:02Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - TPTU-v2: Boosting Task Planning and Tool Usage of Large Language
Model-based Agents in Real-world Systems [25.854559300612184]
本稿では,大規模言語モデル(LLM)のタスク計画・ツール利用(TPTU)能力の向上を目的とした包括的フレームワークを提案する。
このフレームワークは、これらの課題に対処するために設計された3つの重要なコンポーネントで構成されている。(1) API Retrieverは、利用可能な広範囲な配列の中で、ユーザタスクに最も関連するAPIを選択し、(2) LLM Finetunerは、タスク計画とAPI呼び出しにより適するように、ベースLSMをチューニングし、(3)Demo Selectorは、難しいAPIに関連するさまざまなデモを適応的に検索する。
論文 参考訳(メタデータ) (2023-11-19T12:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。