論文の概要: Evaluating LLMs for Text-to-SQL Generation With Complex SQL Workload
- arxiv url: http://arxiv.org/abs/2407.19517v1
- Date: Sun, 28 Jul 2024 15:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 17:42:21.111613
- Title: Evaluating LLMs for Text-to-SQL Generation With Complex SQL Workload
- Title(参考訳): 複雑なSQLワークロードによるテキストからSQL生成のためのLLMの評価
- Authors: Limin Ma, Ken Pu, Ying Zhu,
- Abstract要約: TPC-DSクエリは、他の2つのベンチマークと比較すると、構造的な複雑さがかなり高い。
現在の最先端の生成AIモデルは、正確な意思決定クエリの生成に不足していることを示している。
その結果、実際の実世界のアプリケーションでは、生成したクエリの精度が不十分であることが判明した。
- 参考スコア(独自算出の注目度): 1.2738020945091273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a comparative analysis of the a complex SQL benchmark, TPC-DS, with two existing text-to-SQL benchmarks, BIRD and Spider. Our findings reveal that TPC-DS queries exhibit a significantly higher level of structural complexity compared to the other two benchmarks. This underscores the need for more intricate benchmarks to simulate realistic scenarios effectively. To facilitate this comparison, we devised several measures of structural complexity and applied them across all three benchmarks. The results of this study can guide future research in the development of more sophisticated text-to-SQL benchmarks. We utilized 11 distinct Language Models (LLMs) to generate SQL queries based on the query descriptions provided by the TPC-DS benchmark. The prompt engineering process incorporated both the query description as outlined in the TPC-DS specification and the database schema of TPC-DS. Our findings indicate that the current state-of-the-art generative AI models fall short in generating accurate decision-making queries. We conducted a comparison of the generated queries with the TPC-DS gold standard queries using a series of fuzzy structure matching techniques based on query features. The results demonstrated that the accuracy of the generated queries is insufficient for practical real-world application.
- Abstract(参考訳): 本研究では、複雑なSQLベンチマークであるTPC-DSと、既存のテキスト間SQLベンチマークであるBIRDとSpiderの比較分析を行う。
その結果,TPC-DSクエリは,他の2つのベンチマークと比較すると,構造的複雑さが著しく高いことがわかった。
このことは、現実的なシナリオを効果的にシミュレートするより複雑なベンチマークの必要性を浮き彫りにする。
この比較を容易にするために、構造的複雑性のいくつかの尺度を考案し、これらを3つのベンチマークすべてに適用した。
この研究の結果は、より洗練されたテキスト-SQLベンチマークの開発における将来の研究を導くことができる。
我々は11の異なる言語モデル(LLM)を用いて、TPC-DSベンチマークが提供するクエリ記述に基づいてSQLクエリを生成した。
プロンプトエンジニアリングプロセスには、TPC-DS仕様とTPC-DSのデータベーススキーマに概説されたクエリ記述が組み込まれている。
以上の結果から,現在最先端のAIモデルは,正確な意思決定クエリを生成するには不十分であることが示唆された。
我々は,TPC-DSゴールド・スタンダード・クエリと生成されたクエリの比較を,クエリ機能に基づいたファジィ構造マッチング手法を用いて行った。
その結果、実世界のアプリケーションでは、生成したクエリの精度が不十分であることが判明した。
関連論文リスト
- Rationalization Models for Text-to-SQL [13.792561265515003]
本稿では,テキスト・ツー・シークレット・モデルの微調整を強化するために,CoT(Chain-of-Thought)論理を生成するフレームワークを提案する。
プロセスは、手動でサンプルの小さなセットをアノテートすることから始まり、その後、大きな言語モデルを促すために使用される。
その後、検証されたクエリに基づいて合理化モデルをトレーニングし、広範な合成CoTアノテーションを可能にする。
論文 参考訳(メタデータ) (2025-02-10T18:38:57Z) - Text-to-SQL based on Large Language Models and Database Keyword Search [0.0]
本稿では,自然言語 (NL) 質問を intosql クエリにコンパイルする手法を提案する。
この戦略にはダイナミックな数ショットの例戦略が含まれており、データベースキーワード検索(KwS)プラットフォームが提供するサービスを活用している。
実験により、この戦略は最先端のアプローチを超越した実世界のリレーショナルデータベース上での精度を達成することが示された。
論文 参考訳(メタデータ) (2025-01-23T12:03:29Z) - CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL [9.47170756607886]
CHASE-は、マルチエージェントモデリングにおけるテスト時間計算を用いて、候補生成と選択を改善する革新的な戦略を利用する新しいフレームワークである。
最適な候補を特定するために、選別エージェントを用いて、微調整された二項候補選択LLMとのペア比較により候補をランク付けする。
提案したCHASE-は、BIRD Text-to- datasetベンチマークのテストセットと開発セットにおいて、73.0%と73.01%の最先端実行精度を実現している。
論文 参考訳(メタデータ) (2024-10-02T18:41:35Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation [10.726734105960924]
大規模言語モデル(LLM)は、テキストからタスクへの微調整アプローチを大幅に上回る、ICL(In-context Learning)ベースの手法を実現している。
本研究は,LLMのプロンプトに対する感受性を考察し,複数のプロンプトを活用してより広い探索空間を探索する手法を提案する。
生成したクエリの精度と効率の両面から,BIRD上に新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-05-13T04:59:32Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。