Fugu-MT 論文翻訳(概要): Invocable APIs derived from NL2SQL datasets for LLM Tool-Calling Evaluation

論文の概要: Invocable APIs derived from NL2SQL datasets for LLM Tool-Calling Evaluation

arxiv url: http://arxiv.org/abs/2506.11266v1
Date: Thu, 12 Jun 2025 20:17:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-16 17:50:49.572088
Title: Invocable APIs derived from NL2SQL datasets for LLM Tool-Calling Evaluation
Title（参考訳）: LLMツール・カリング評価のためのNL2SQLデータセットから派生した呼び出し可能なAPI
Authors: Benjamin Elder, Anupama Murthi, Jungkoo Kang, Ankita Rajaram Naik, Kiran Kate, Kinjal Basu, Danish Contractor,
Abstract要約: 大規模言語モデル(LLM)はエージェントシステムとして定期的にデプロイされ、タスクを達成するためにライブ環境と対話するツールにアクセスする。このような特徴を持つデータセットを作成するために,既存のNL2データセットを使用してNL2APIデータセットを自動的に作成する方法を検討する。私たちはこのパイプラインを、最大のNL2データセットであるBIRDに適用して、2500以上のAPIのコレクションを作成します。
参考スコア（独自算出の注目度）: 7.260113022127256
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) are routinely deployed as agentic systems, with access to tools that interact with live environments to accomplish tasks. In enterprise deployments these systems need to interact with API collections that can be extremely large and complex, often backed by databases. In order to create datasets with such characteristics, we explore how existing NL2SQL (Natural Language to SQL query) datasets can be used to automatically create NL2API datasets. Specifically, this work describes a novel data generation pipeline that exploits the syntax of SQL queries to construct a functionally equivalent sequence of API calls. We apply this pipeline to one of the largest NL2SQL datasets, BIRD-SQL to create a collection of over 2500 APIs that can be served as invocable tools or REST-endpoints. We pair natural language queries from BIRD-SQL to ground-truth API sequences based on this API pool. We use this collection to study the performance of 10 public LLMs and find that all models struggle to determine the right set of tools (consisting of tasks of intent detection, sequencing with nested function calls, and slot-filling). We find that models have extremely low task completion rates (7-47 percent - depending on the dataset) which marginally improves to 50 percent when models are employed as ReACT agents that interact with the live API environment. The best task completion rates are far below what may be required for effective general-use tool-calling agents, suggesting substantial scope for improvement in current state-of-the-art tool-calling LLMs. We also conduct detailed ablation studies, such as assessing the impact of the number of tools available as well as the impact of tool and slot-name obfuscation. We compare the performance of models on the original SQL generation tasks and find that current models are sometimes able to exploit SQL better than APIs.
Abstract（参考訳）: 大規模言語モデル(LLM)はエージェントシステムとして定期的にデプロイされ、タスクを達成するためにライブ環境と対話するツールにアクセスする。エンタープライズデプロイメントでは、これらのシステムは、非常に大きく、複雑で、しばしばデータベースによってバックアップされるAPIコレクションと対話する必要があります。このような特徴を持つデータセットを作成するために,既存のNL2SQL(Natural Language to SQL query)データセットを使用して,NL2APIデータセットを自動的に生成する方法を検討する。具体的には、SQLクエリの構文を利用して、関数的に等価なAPI呼び出しシーケンスを構築する、新しいデータ生成パイプラインを記述する。私たちはこのパイプラインを、最大のNL2SQLデータセットの1つであるBIRD-SQLに適用して、2500以上のAPIのコレクションを作成します。 BIRD-SQLからの自然言語クエリと、このAPIプールをベースとしたグランドトラストのAPIシーケンスをペアにしています。このコレクションは10のパブリックLCMのパフォーマンスを調査し、すべてのモデルが適切なツールセットを決定するのに苦労している(意図の検出タスク、ネスト関数呼び出しによるシークエンシング、スロットフィリング)。モデルがライブAPI環境と対話するReACTエージェントとして使用される場合、モデルは非常に低いタスク完了率(データセットによっては7～47%)であることに気付きました。最高のタスク完了率は、効果的な汎用ツールコールエージェントに必要なものよりもはるかに低く、現在の最先端ツールコール LLM の改善のかなりの範囲を示唆している。また、利用可能なツール数の影響や、ツールやスロット名難読化の影響など、詳細なアブレーション研究も行っています。私たちは、元のSQL生成タスクにおけるモデルのパフォーマンスを比較し、現在のモデルが時々、APIよりもSQLをうまく活用できることを見つけました。

関連論文リスト

DeKeyNLU: Enhancing Natural Language to SQL Generation through Task Decomposition and Keyword Extraction [46.422626657078666]
本稿では,1500組のQAペアを含む新しいデータセットであるDeKeyNLUを提案する。本稿では,ユーザ質問理解,エンティティ検索,生成に3つのモジュールを使用するRAGベースのNL2パイプラインであるDeKeyを提案する。
論文参考訳（メタデータ） (2025-09-18T00:47:56Z)
In-N-Out: A Parameter-Level API Graph Dataset for Tool Agents [12.78469884522289]
In-N-Outは、2つの実世界のAPIベンチマークとドキュメントから構築されたAPIグラフのエキスパートアノテートデータセットである。 In-N-Outを使用すると、ツール検索とマルチツールクエリ生成の両方のパフォーマンスが大幅に向上する。ツールエージェントに明示的なAPIグラフを使用することの約束と,貴重なリソースとしてIn-N-Outの有用性を強調した。
論文参考訳（メタデータ） (2025-09-01T15:42:21Z)
Querying Databases with Function Calling [1.3329663974869035]
本稿では,検索クエリやフィルタ,組み合わせによるデータアクセスを統一するデータベースクエリのためのツール定義を提案する。合成データベーススキーマとクエリを生成するために,Gorilla LLMフレームワークに適応した新しいパイプラインを提案する。 LLMはプロパティ上の演算子を利用するのに非常に有効であるが、テキストプロパティーフィルタに苦慮している。
論文参考訳（メタデータ） (2025-01-23T23:09:13Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets [99.8988504388011]
APIGenは、関数呼び出しアプリケーションのための検証可能な高品質データセットを合成するために設計された、自動データ生成パイプラインである。 APIGenを活用して、21のカテゴリにわたる3,673の実行可能なAPIを収集し、多様な関数呼び出しデータセットを生成します。機能呼び出しエージェントドメインの分野を推し進めるため、6万の高品質なエントリを含むデータセットをリリースする。
論文参考訳（メタデータ） (2024-06-26T17:49:11Z)
UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文参考訳（メタデータ） (2024-06-23T06:58:55Z)
From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。 ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-02-28T08:42:23Z)
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs [28.840207102132286]
既存のデータセットを特定し、キュレーションし、変換するタスクに重点を置いています。ツール拡張LDMのトレーニングと体系的なテストを行うための大規模なコーパスであるAPI-BLENDを紹介する。トレーニングとベンチマークの両方の目的で,API-BLENDデータセットの有用性を実証する。
論文参考訳（メタデータ） (2024-02-23T18:30:49Z)
MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [47.120862170230566]
最近のText-to-Yourselfメソッドは通常、"巨大な"データベース上での大幅なパフォーマンス劣化に悩まされる。我々は,新しいテキスト・ツー・ユー・セルフ LLM ベースのマルチエージェント協調フレームワーク MAC を紹介する。我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。次に、Code 7Bを活用することで、オープンソースの命令フォローモデルであるsql-Llamaを微調整し、GPT-4のように全てのタスクを達成します。
論文参考訳（メタデータ） (2023-12-18T14:40:20Z)
Fine-Tuning Language Models for Context-Specific SQL Query Generation [0.0]
本稿では,自然言語を tosql クエリに変換するタスクに対して,オープンソースの大規模言語モデル (LLM) を微調整する新しい手法を提案する。我々は、Snowflake SQLとGoogleの方言に合わせて、合成データセットに基づいて訓練されたsqlクエリ生成に特化したモデルを紹介する。提案手法では,GPT-4を用いてコンテキスト固有のデータセットを生成し,リソース制約を最適化するためにLoRa技術を用いて3つのオープンソースLCM(Starcoder Plus,Code-Llama,Mistral)を微調整する。微調整モデルでは、ベースラインGPと比較してゼロショット設定では優れた性能を示す。
論文参考訳（メタデータ） (2023-12-04T18:04:27Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文参考訳（メタデータ） (2022-04-05T20:33:24Z)
Compositional Generalization for Natural Language Interfaces to Web APIs [26.851998759793453]
本稿では,Webアプリケーションプログラミングインタフェース(NL2API)に対する自然言語の新しいデータセットであるOkapiについて述べる。このデータセットは英語で書かれており、3つのドメインをカバーする22,508の質問と9,019のユニークなAPI呼び出しを含んでいる。 NL2APIの新しい構成一般化タスクを定義し、トレーニングセット内の単純なAPI呼び出しから推論フェーズにおける新しいより複雑なAPI呼び出しまで、モデルが外挿する能力を探る。
論文参考訳（メタデータ） (2021-12-09T20:49:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。