論文の概要: Querying Databases with Function Calling
- arxiv url: http://arxiv.org/abs/2502.00032v1
- Date: Thu, 23 Jan 2025 23:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-09 05:18:36.971999
- Title: Querying Databases with Function Calling
- Title(参考訳): 関数呼び出しによるデータベースのクエリ
- Authors: Connor Shorten, Charles Pierse, Thomas Benjamin Smith, Karel D'Oosterlinck, Tuana Celik, Erika Cardenas, Leonie Monigatti, Mohd Shukri Hasan, Edward Schmuhl, Daniel Williams, Aravind Kesiraju, Bob van Luijt,
- Abstract要約: 本稿では,検索クエリやフィルタ,組み合わせによるデータアクセスを統一するデータベースクエリのためのツール定義を提案する。
合成データベーススキーマとクエリを生成するために,Gorilla LLMフレームワークに適応した新しいパイプラインを提案する。
LLMはプロパティ上の演算子を利用するのに非常に有効であるが、テキストプロパティーフィルタに苦慮している。
- 参考スコア(独自算出の注目度): 1.3329663974869035
- License:
- Abstract: The capabilities of Large Language Models (LLMs) are rapidly accelerating largely thanks to their integration with external tools. Querying databases is among the most effective of these integrations, enabling LLMs to access private or continually updating data. While Function Calling is the most common method for interfacing external tools to LLMs, its application to database querying as a tool has been underexplored. We propose a tool definition for database querying that unifies accessing data with search queries, filters, or a combination both, as well as transforming results with aggregation and groupby operators. To evaluate its effectiveness, we conduct a study with 8 LLMs spanning 5 model families. We present a novel pipeline adapting the Gorilla LLM framework to create synthetic database schemas and queries. We primarily evaluate the models with the Exact Match of predicted and ground truth query APIs. Among the models tested, Claude 3.5 Sonnet achieves the highest performance with an Exact Match score of 74.3%, followed by GPT-4o mini at 73.7%, and GPT-4o at 71.8%. We further breakdown these results per API component utilized and across synthetic use cases. We find that LLMs are highly effective at utilizing operators on boolean properties, but struggle with text property filters. Across use cases we find robust results with the higher performing models such as GPT-4o, but significant performance variance across use cases from lower performing models. We additionally conduct ablation studies exploring the impact of parallel tool calling, adding a rationale as an argument of the tool call, using a separate tool per database collection, and tool calling with structured outputs. Our findings demonstrate the effectiveness of enabling LLMs to query databases with Function Calling. We have open-sourced our experimental code and results at github.com/weaviate/gorilla.
- Abstract(参考訳): 大きな言語モデル(LLM)の能力は、外部ツールとの統合によって、急速に加速しています。
データベースのクエリはこれらの統合の中で最も効果的であり、LLMはプライベートまたは継続的に更新されるデータにアクセスできる。
関数呼び出し(Function Calling)は、LCMに外部ツールをインターフェースする最も一般的な方法であるが、そのツールとしてのデータベースクエリへの応用は、過小評価されている。
本稿では,検索クエリ,フィルタ,あるいは組み合わせによるデータアクセスを統一するデータベースクエリのためのツール定義と,集約とグループバイ演算子による結果の変換を提案する。
有効性を評価するため,5つのモデルファミリーにまたがる8つのLLMを用いて研究を行った。
合成データベーススキーマとクエリを生成するために,Gorilla LLMフレームワークに適応した新しいパイプラインを提案する。
予測された真理クエリAPIと基底的真理クエリAPIの排他的マッチングを用いてモデルを主に評価する。
テストされたモデルのうち、クロード3.5ソンネットは74.3%のエクサクトマッチスコア、73.7%のGPT-4o mini、71.8%のGPT-4oで最高パフォーマンスを達成した。
使用したAPIコンポーネントごと、および合成ユースケース毎に、これらの結果をさらに分解する。
LLMはブール特性の演算子を利用するのに非常に有効であるが, テキスト特性フィルタに苦慮している。
GPT-4oのような高パフォーマンスモデルでは、ユースケース全体で堅牢な結果が得られますが、低パフォーマンスモデルでは、ユースケース間で大きなパフォーマンスのばらつきがあります。
さらに、並列ツール呼び出しの影響を探るアブレーション研究、ツール呼び出しの引数として根拠を加えること、データベースコレクション毎に別々のツールを使用すること、構造化アウトプットを用いたツール呼び出しについても検討する。
この結果から,LLMがFunction Callingでデータベースをクエリできることの有効性が示唆された。
実験コードと結果をgithub.com/weaviate/gorilla.comでオープンソース化しました。
関連論文リスト
- Data Fusion of Synthetic Query Variants With Generative Large Language Models [1.864807003137943]
本研究は,データ融合実験において,命令調整型大規模言語モデルによって生成される合成クエリ変種を用いることの実現可能性について検討する。
我々は、プロンプトとデータ融合の原則を生かした、軽量で教師なしで費用効率のよいアプローチを導入します。
解析の結果,合成クエリの変種に基づくデータ融合は,単一クエリのベースラインよりもはるかに優れており,擬似関連フィードバック手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-06T12:54:27Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks [35.97890508648945]
我々はApache 2.0ライセンスの下で-20B-FUNCTIONCALLINGモデルを紹介します。
モデルは7つの基本的なタスクに対してマルチタスクトレーニングアプローチを使用してトレーニングされる。
20B-FUNCTIONCALLINGは、7つの異なる評価データセットにおいて、複数のタスクに対してより一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:47:26Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models [46.07900122810749]
大規模言語モデル(LLM)は、様々なアプリケーションで前例のない性能を達成したが、評価は依然として難しい。
既存のリレーショナルデータベースを利用することは、ベンチマークを構築する上で有望なアプローチである、と我々は主張する。
我々は,これらの整合性制約を用いて任意のデータベースをLLMベンチマークに変換するERBenchを提案する。
論文 参考訳(メタデータ) (2024-03-08T12:42:36Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Querying Large Language Models with SQL [16.383179496709737]
多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。
事前訓練されたLarge Language Models (LLMs) の台頭に伴い、大量のテキストコーパスから抽出された情報を保存および使用するための効果的なソリューションが現在存在する。
本稿では,従来のデータベースアーキテクチャに基づくプロトタイプであるGaloisについて紹介する。
論文 参考訳(メタデータ) (2023-04-02T06:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。