論文の概要: In-N-Out: A Parameter-Level API Graph Dataset for Tool Agents
- arxiv url: http://arxiv.org/abs/2509.01560v1
- Date: Mon, 01 Sep 2025 15:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.75509
- Title: In-N-Out: A Parameter-Level API Graph Dataset for Tool Agents
- Title(参考訳): In-N-Out: ツールエージェントのためのパラメータレベルAPIグラフデータセット
- Authors: Seungkyu Lee, Nalim Kim, Yohan Jo,
- Abstract要約: In-N-Outは、2つの実世界のAPIベンチマークとドキュメントから構築されたAPIグラフのエキスパートアノテートデータセットである。
In-N-Outを使用すると、ツール検索とマルチツールクエリ生成の両方のパフォーマンスが大幅に向上する。
ツールエージェントに明示的なAPIグラフを使用することの約束と,貴重なリソースとしてIn-N-Outの有用性を強調した。
- 参考スコア(独自算出の注目度): 12.78469884522289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool agents -- LLM-based systems that interact with external APIs -- offer a way to execute real-world tasks. However, as tasks become increasingly complex, these agents struggle to identify and call the correct APIs in the proper order. To tackle this problem, we investigate converting API documentation into a structured API graph that captures API dependencies and leveraging it for multi-tool queries that require compositional API calls. To support this, we introduce In-N-Out, the first expert-annotated dataset of API graphs built from two real-world API benchmarks and their documentation. Using In-N-Out significantly improves performance on both tool retrieval and multi-tool query generation, nearly doubling that of LLMs using documentation alone. Moreover, graphs generated by models fine-tuned on In-N-Out close 90% of this gap, showing that our dataset helps models learn to comprehend API documentation and parameter relationships. Our findings highlight the promise of using explicit API graphs for tool agents and the utility of In-N-Out as a valuable resource. We will release the dataset and code publicly.
- Abstract(参考訳): ツールエージェント -- 外部APIと対話するLLMベースのシステム -- は、現実世界のタスクを実行する方法を提供する。
しかし、タスクが複雑化するにつれて、これらのエージェントは適切な順序で適切なAPIを特定し呼び出すのに苦労する。
この問題に対処するために、APIドキュメントをAPI依存性をキャプチャし、合成API呼び出しを必要とするマルチツールクエリに活用する構造化APIグラフに変換することを検討する。
これをサポートするために、2つの実世界のAPIベンチマークとドキュメントから構築されたAPIグラフのエキスパートによる最初のデータセットであるIn-N-Outを紹介します。
In-N-Outを使用すると、ツール検索とマルチツールクエリ生成の両方のパフォーマンスが大幅に向上する。
さらに、In-N-Outで微調整されたモデルによって生成されたグラフは、このギャップの90%近くを占めており、私たちのデータセットが、APIドキュメントとパラメータの関係を理解するのに役立ちます。
ツールエージェントに明示的なAPIグラフを使用することの約束と,貴重なリソースとしてIn-N-Outの有用性を強調した。
データセットとコードを公開します。
関連論文リスト
- Doc2Agent: Scalable Generation of Tool-Using Agents from API Documentation [2.4117201298131232]
Doc2Agentは、PythonベースのツールをAPIドキュメントから呼び出せるツールエージェントを構築するためのスケーラブルなパイプラインである。
実世界のAPI、WebArena API、リサーチAPIに対するアプローチを評価し、検証されたツールを作成します。
論文 参考訳(メタデータ) (2025-06-24T20:30:44Z) - Invocable APIs derived from NL2SQL datasets for LLM Tool-Calling Evaluation [7.260113022127256]
大規模言語モデル(LLM)はエージェントシステムとして定期的にデプロイされ、タスクを達成するためにライブ環境と対話するツールにアクセスする。
このような特徴を持つデータセットを作成するために,既存のNL2データセットを使用してNL2APIデータセットを自動的に作成する方法を検討する。
私たちはこのパイプラインを、最大のNL2データセットであるBIRDに適用して、2500以上のAPIのコレクションを作成します。
論文 参考訳(メタデータ) (2025-06-12T20:17:52Z) - ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。
実験の結果、ExploreaCoderは、事前のAPI知識に欠けるモデルのパフォーマンスを大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-12-06T19:00:15Z) - AppBench: Planning of Multiple APIs from Various APPs for Complex User Instruction [24.67142048995415]
大きな言語モデル(LLM)は、多用途外部APIと接続することで、現実世界と対話することができる。
textttAppBench は LLM が様々なソースから複数の API を計画・実行できる能力を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T04:03:13Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - SoAy: A Solution-based LLM API-using Methodology for Academic Information Seeking [59.59923482238048]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。
ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。
その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文 参考訳(メタデータ) (2024-05-24T02:44:14Z) - API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs [28.840207102132286]
既存のデータセットを特定し、キュレーションし、変換するタスクに重点を置いています。
ツール拡張LDMのトレーニングと体系的なテストを行うための大規模なコーパスであるAPI-BLENDを紹介する。
トレーニングとベンチマークの両方の目的で,API-BLENDデータセットの有用性を実証する。
論文 参考訳(メタデータ) (2024-02-23T18:30:49Z) - You Can REST Now: Automated REST API Documentation and Testing via LLM-Assisted Request Mutations [8.158964648211002]
RESTSpecITは、ドキュメントを推論し、REST APIのブラックボックステストを実行する最初の自動化アプローチです。
当社のアプローチでは,最先端のツールに比べて最小限のユーザ入力が必要になります。
我々は,DeepSeek V3, GPT-4.1, GPT-3.5の3つの最先端LCMを用いてツールの品質を評価する。
論文 参考訳(メタデータ) (2024-02-07T18:55:41Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。