論文の概要: A Framework for Testing and Adapting REST APIs as LLM Tools
- arxiv url: http://arxiv.org/abs/2504.15546v3
- Date: Fri, 12 Sep 2025 11:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 14:04:02.95227
- Title: A Framework for Testing and Adapting REST APIs as LLM Tools
- Title(参考訳): LLMツールとしてのREST APIのテストと適応のためのフレームワーク
- Authors: Jayachandu Bandlamudi, Ritwik Chaudhuri, Neelamadhav Gantayat, Sambit Ghosh, Kushal Mukherjee, Prerna Agarwal, Renuka Sindhgatta, Sameep Mehta,
- Abstract要約: 大きな言語モデル(LLM)は、外部ツールで複雑なタスクを実行する自律エージェントを構築するために、ますます使われています。
現在のベンチマークではこれらの課題を見落としており、エージェント駆動自動化のためのAPI準備性の評価のギャップが残っている。
LLMエージェント用のPythonツールとしてラップされたエンタープライズAPIを体系的に評価するテストフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.757827071584737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used to build autonomous agents that perform complex tasks with external tools, often exposed through APIs in enterprise systems. Direct use of these APIs is difficult due to the complex input schema and verbose responses. Current benchmarks overlook these challenges, leaving a gap in assessing API readiness for agent-driven automation. We present a testing framework that systematically evaluates enterprise APIs when wrapped as Python tools for LLM-based agents. The framework generates data-aware test cases, translates them into natural language instructions, and evaluates whether agents can correctly invoke the tool, handle their inputs, and process its responses. We apply the framework to generate over 2400 test cases across different domains and develop a taxonomy of common errors, including input misinterpretation, output failures, and schema mismatches. We further classify errors to support debugging and tool refinement. Our framework provides a systematic approach to enabling enterprise APIs as reliable tools for agent-based applications.
- Abstract(参考訳): 大きな言語モデル(LLM)は、外部ツールで複雑なタスクを実行し、しばしばエンタープライズシステムのAPIを通じて露呈する自律エージェントを構築するために、ますます使われています。
複雑な入力スキーマと冗長応答のため、これらのAPIを直接使用するのは難しい。
現在のベンチマークではこれらの課題を見落としており、エージェント駆動自動化のためのAPI準備性の評価のギャップが残っている。
LLMエージェント用のPythonツールとしてラップされたエンタープライズAPIを体系的に評価するテストフレームワークを提案する。
このフレームワークは、データ認識テストケースを生成し、それらを自然言語命令に変換し、エージェントがツールを正しく呼び出し、入力を処理し、応答を処理することができるかどうかを評価する。
フレームワークを適用して、異なるドメイン間で2400以上のテストケースを生成し、入力ミス解釈、出力失敗、スキーマミスマッチを含む一般的なエラーの分類法を開発する。
デバッグとツールの改良をサポートするために、エラーをさらに分類します。
当社のフレームワークは,エージェントベースのアプリケーションの信頼性ツールとしてエンタープライズAPIを実現するための,体系的なアプローチを提供します。
関連論文リスト
- Evaluating LLMs on Sequential API Call Through Automated Test Generation [10.621357661774244]
StateGenは、シーケンシャルなAPIインタラクションを含む多様なコーディングタスクを生成するように設計された、自動化されたフレームワークである。
3つの代表的なシナリオにまたがる120の検証済みのテストケースを含むベンチマークであるStateEvalを構築します。
実験の結果、StateGenは挑戦的で現実的なAPI指向のタスクを効果的に生成できることを確認した。
論文 参考訳(メタデータ) (2025-07-13T03:52:51Z) - Learning API Functionality from Demonstrations for Tool-based Agents [1.3332982107151432]
ドキュメンテーションのないシナリオに適用可能な新しいパラダイムとして,デモから直接API機能を学ぶことを提案する。
実演回数とLCM生成サマリーの使用と評価が,APIベースのエージェントのタスク成功率にどのように影響するかを検討する。
明示的な関数呼び出しと自然言語の批判を提供することで、より正確なパラメータの充足によりエージェントのタスク成功率が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2025-05-30T04:17:09Z) - Test Amplification for REST APIs via Single and Multi-Agent LLM Systems [1.6499388997661122]
単一エージェントとマルチエージェントのLLMシステムがREST APIテストスイートを増幅する方法について示す。
評価では、APIカバレッジの向上、テスト中のAPIの多数のバグの特定、および両アプローチの計算コストとエネルギー消費に関する洞察を示す。
論文 参考訳(メタデータ) (2025-04-10T20:19:50Z) - ToolFactory: Automating Tool Generation by Leveraging LLM to Understand REST API Documentations [4.934192277899036]
APIドキュメントは、標準化、一貫性のないスキーマ、不完全な情報の欠如に悩まされることが多い。
textbfToolFactoryは、構造化されていないAPIドキュメントからツール生成を自動化するオープンソースのパイプラインである。
また,グリコマテリアル研究のためのドメイン固有のAIエージェントを作成することで,ToolFactoryを実証した。
論文 参考訳(メタデータ) (2025-01-28T13:42:33Z) - AutoRestTest: A Tool for Automated REST API Testing Using LLMs and MARL [46.65963514391019]
AutoRestTestは、Semantic Property Dependency Graph(SPDG)とMARL(Multi-Agent Reinforcement Learning)と大規模言語モデル(LLM)を統合して、効果的なREST APIテストを可能にする新しいツールである。
論文 参考訳(メタデータ) (2025-01-15T05:54:33Z) - LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。
私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。
私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - A Multi-Agent Approach for REST API Testing with Semantic Graphs and LLM-Driven Inputs [46.65963514391019]
私たちは、REST APIテストに依存性組み込みのマルチエージェントアプローチを採用する最初のブラックボックスツールであるAutoRestTestを紹介します。
このアプローチでは、REST APIテストを分離可能な問題として扱い、4人のエージェントがAPI探索を最適化するために協力します。
12の現実世界のRESTサービス上でのAutoRestTestの評価は、主要な4つのブラックボックスREST APIテストツールよりも優れています。
論文 参考訳(メタデータ) (2024-11-11T16:20:27Z) - KAT: Dependency-aware Automated API Testing with Large Language Models [1.7264233311359707]
KAT(Katalon API Testing)は、APIを検証するためのテストケースを自律的に生成する、AI駆動の新たなアプローチである。
実世界の12のサービスを用いたKATの評価は、検証カバレッジを改善し、文書化されていないステータスコードを検出し、これらのサービスの偽陽性を低減できることを示している。
論文 参考訳(メタデータ) (2024-07-14T14:48:18Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。
評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文 参考訳(メタデータ) (2023-12-01T19:53:23Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。