論文の概要: Invocable APIs derived from NL2SQL datasets for LLM Tool-Calling Evaluation
- arxiv url: http://arxiv.org/abs/2506.11266v1
- Date: Thu, 12 Jun 2025 20:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.572088
- Title: Invocable APIs derived from NL2SQL datasets for LLM Tool-Calling Evaluation
- Title(参考訳): LLMツール・カリング評価のためのNL2SQLデータセットから派生した呼び出し可能なAPI
- Authors: Benjamin Elder, Anupama Murthi, Jungkoo Kang, Ankita Rajaram Naik, Kiran Kate, Kinjal Basu, Danish Contractor,
- Abstract要約: 大規模言語モデル(LLM)はエージェントシステムとして定期的にデプロイされ、タスクを達成するためにライブ環境と対話するツールにアクセスする。
このような特徴を持つデータセットを作成するために,既存のNL2データセットを使用してNL2APIデータセットを自動的に作成する方法を検討する。
私たちはこのパイプラインを、最大のNL2データセットであるBIRDに適用して、2500以上のAPIのコレクションを作成します。
- 参考スコア(独自算出の注目度): 7.260113022127256
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are routinely deployed as agentic systems, with access to tools that interact with live environments to accomplish tasks. In enterprise deployments these systems need to interact with API collections that can be extremely large and complex, often backed by databases. In order to create datasets with such characteristics, we explore how existing NL2SQL (Natural Language to SQL query) datasets can be used to automatically create NL2API datasets. Specifically, this work describes a novel data generation pipeline that exploits the syntax of SQL queries to construct a functionally equivalent sequence of API calls. We apply this pipeline to one of the largest NL2SQL datasets, BIRD-SQL to create a collection of over 2500 APIs that can be served as invocable tools or REST-endpoints. We pair natural language queries from BIRD-SQL to ground-truth API sequences based on this API pool. We use this collection to study the performance of 10 public LLMs and find that all models struggle to determine the right set of tools (consisting of tasks of intent detection, sequencing with nested function calls, and slot-filling). We find that models have extremely low task completion rates (7-47 percent - depending on the dataset) which marginally improves to 50 percent when models are employed as ReACT agents that interact with the live API environment. The best task completion rates are far below what may be required for effective general-use tool-calling agents, suggesting substantial scope for improvement in current state-of-the-art tool-calling LLMs. We also conduct detailed ablation studies, such as assessing the impact of the number of tools available as well as the impact of tool and slot-name obfuscation. We compare the performance of models on the original SQL generation tasks and find that current models are sometimes able to exploit SQL better than APIs.
- Abstract(参考訳): 大規模言語モデル(LLM)はエージェントシステムとして定期的にデプロイされ、タスクを達成するためにライブ環境と対話するツールにアクセスする。
エンタープライズデプロイメントでは、これらのシステムは、非常に大きく、複雑で、しばしばデータベースによってバックアップされるAPIコレクションと対話する必要があります。
このような特徴を持つデータセットを作成するために,既存のNL2SQL(Natural Language to SQL query)データセットを使用して,NL2APIデータセットを自動的に生成する方法を検討する。
具体的には、SQLクエリの構文を利用して、関数的に等価なAPI呼び出しシーケンスを構築する、新しいデータ生成パイプラインを記述する。
私たちはこのパイプラインを、最大のNL2SQLデータセットの1つであるBIRD-SQLに適用して、2500以上のAPIのコレクションを作成します。
BIRD-SQLからの自然言語クエリと、このAPIプールをベースとしたグランドトラストのAPIシーケンスをペアにしています。
このコレクションは10のパブリックLCMのパフォーマンスを調査し、すべてのモデルが適切なツールセットを決定するのに苦労している(意図の検出タスク、ネスト関数呼び出しによるシークエンシング、スロットフィリング)。
モデルがライブAPI環境と対話するReACTエージェントとして使用される場合、モデルは非常に低いタスク完了率(データセットによっては7~47%)であることに気付きました。
最高のタスク完了率は、効果的な汎用ツールコールエージェントに必要なものよりもはるかに低く、現在の最先端ツールコール LLM の改善のかなりの範囲を示唆している。
また、利用可能なツール数の影響や、ツールやスロット名難読化の影響など、詳細なアブレーション研究も行っています。
私たちは、元のSQL生成タスクにおけるモデルのパフォーマンスを比較し、現在のモデルが時々、APIよりもSQLをうまく活用できることを見つけました。
関連論文リスト
- Querying Databases with Function Calling [1.3329663974869035]
本稿では,検索クエリやフィルタ,組み合わせによるデータアクセスを統一するデータベースクエリのためのツール定義を提案する。
合成データベーススキーマとクエリを生成するために,Gorilla LLMフレームワークに適応した新しいパイプラインを提案する。
LLMはプロパティ上の演算子を利用するのに非常に有効であるが、テキストプロパティーフィルタに苦慮している。
論文 参考訳(メタデータ) (2025-01-23T23:09:13Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets [99.8988504388011]
APIGenは、関数呼び出しアプリケーションのための検証可能な高品質データセットを合成するために設計された、自動データ生成パイプラインである。
APIGenを活用して、21のカテゴリにわたる3,673の実行可能なAPIを収集し、多様な関数呼び出しデータセットを生成します。
機能呼び出しエージェントドメインの分野を推し進めるため、6万の高品質なエントリを含むデータセットをリリースする。
論文 参考訳(メタデータ) (2024-06-26T17:49:11Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs [28.840207102132286]
既存のデータセットを特定し、キュレーションし、変換するタスクに重点を置いています。
ツール拡張LDMのトレーニングと体系的なテストを行うための大規模なコーパスであるAPI-BLENDを紹介する。
トレーニングとベンチマークの両方の目的で,API-BLENDデータセットの有用性を実証する。
論文 参考訳(メタデータ) (2024-02-23T18:30:49Z) - MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [47.120862170230566]
最近のText-to-Yourselfメソッドは通常、"巨大な"データベース上での大幅なパフォーマンス劣化に悩まされる。
我々は,新しいテキスト・ツー・ユー・セルフ LLM ベースのマルチエージェント協調フレームワーク MAC を紹介する。
我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。
次に、Code 7Bを活用することで、オープンソースの命令フォローモデルであるsql-Llamaを微調整し、GPT-4のように全てのタスクを達成します。
論文 参考訳(メタデータ) (2023-12-18T14:40:20Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。