論文の概要: Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries
- arxiv url: http://arxiv.org/abs/2402.08349v2
- Date: Tue, 18 Jun 2024 15:10:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 04:15:24.198983
- Title: Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries
- Title(参考訳): 実ユーザクエリに基づくテキスト間SQLシステムのロバスト性評価
- Authors: Jonathan Fürst, Catherine Kosten, Farhard Nooralahzadeh, Yi Zhang, Kurt Stockinger,
- Abstract要約: 本論文は,テキスト・ツー・システムのデータモデルロバスト性について,実際に評価した最初の事例である。
サッカーDBはFIFAワールドカップ2022の文脈で9ヶ月にわたって展開されたシステムである。
データはすべて、システムにライブで質問された実際のユーザ質問に基づいています。これらの質問のサブセットを手動でラベル付けし、3つの異なるデータモデルに翻訳しました。
- 参考スコア(独自算出の注目度): 4.141402725050671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL systems (also known as NL-to-SQL systems) have become an increasingly popular solution for bridging the gap between user capabilities and SQL-based data access. These systems translate user requests in natural language to valid SQL statements for a specific database. Recent Text-to-SQL systems have benefited from the rapid improvement of transformer-based language models. However, while Text-to-SQL systems that incorporate such models continuously reach new high scores on -- often synthetic -- benchmark datasets, a systematic exploration of their robustness towards different data models in a real-world, realistic scenario is notably missing. This paper provides the first in-depth evaluation of the data model robustness of Text-to-SQL systems in practice based on a multi-year international project focused on Text-to-SQL interfaces. Our evaluation is based on a real-world deployment of FootballDB, a system that was deployed over a 9 month period in the context of the FIFA World Cup 2022, during which about 6K natural language questions were asked and executed. All of our data is based on real user questions that were asked live to the system. We manually labeled and translated a subset of these questions for three different data models. For each data model, we explore the performance of representative Text-to-SQL systems and language models. We further quantify the impact of training data size, pre-, and post-processing steps as well as language model inference time. Our comprehensive evaluation sheds light on the design choices of real-world Text-to-SQL systems and their impact on moving from research prototypes to real deployments. Last, we provide a new benchmark dataset to the community, which is the first to enable the evaluation of different data models for the same dataset and is substantially more challenging than most previous datasets in terms of query complexity.
- Abstract(参考訳): テキストからSQLシステム(NL-to-SQLシステムとしても知られる)は、ユーザ機能とSQLベースのデータアクセスのギャップを埋める手段として、ますます人気が高まっている。
これらのシステムは、自然言語でユーザ要求を、特定のデータベースに対して有効なSQLステートメントに変換する。
最近のText-to-SQLシステムは、トランスフォーマーベースの言語モデルの急速な改善の恩恵を受けている。
しかし、このようなモデルを組み込んだText-to-SQLシステムは、しばしば合成される)ベンチマークデータセット上で、継続的に新しい高いスコアに達する一方で、現実的なシナリオでは、異なるデータモデルに対する堅牢性に対する体系的な調査が特に欠落している。
本稿では,テキスト・トゥ・SQL インタフェースに着目した多年間国際プロジェクトに基づいて,テキスト・トゥ・SQL システムのデータモデルロバスト性について,より詳細な評価を行う。
評価は,FIFAワールドカップ2022で9ヶ月にわたって実施され,約6万件の自然言語質問が質問され,実行されたFBDBの実際の展開に基づく。
私たちのデータはすべて、システムにライブで質問された実際のユーザ質問に基づいています。
3つの異なるデータモデルに対して、これらの質問のサブセットを手動でラベル付けし、翻訳しました。
各データモデルについて、代表的なテキスト-SQLシステムと言語モデルの性能について検討する。
さらに、トレーニングデータサイズ、事前および後処理ステップ、および言語モデル推論時間の影響を定量化する。
私たちの総合的な評価は、現実世界のText-to-SQLシステムの設計選択と、研究プロトタイプから実際のデプロイメントへの移行に対する影響に光を当てています。
最後に、コミュニティに新しいベンチマークデータセットを提供する。これは、同じデータセットに対して異なるデータモデルの評価を可能にする最初のものであり、クエリの複雑さの観点から、以前のほとんどのデータセットよりもかなり難しい。
関連論文リスト
- Beyond Text-to-SQL for IoT Defense: A Comprehensive Framework for Querying and Classifying IoT Threats [24.62442027542548]
本研究では,10,985対のテキスト・ツー・IoTと239,398行のネットワークトラフィックからなる新しいテキスト・ツー・IoTデータセットを提案する。
以上の結果から,データの検索と推測を行う共同トレーニングにより,テキスト・トゥ・IoT全体のパフォーマンスが向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-25T14:14:35Z) - Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL [15.75829309721909]
自然言語の質問(text-to-)から正確なsqlを生成することは、長年にわたる課題である。
PLMはテキスト・ツー・タスクに利用され、有望な性能を実現している。
近年,大規模言語モデル (LLM) は自然言語理解において重要な機能を示している。
論文 参考訳(メタデータ) (2024-06-12T17:13:17Z) - CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - On the Structural Generalization in Text-to-SQL [36.56043090037171]
データベーススキーマ(DS)の構造的多様性について検討する。
本稿では,新しいテキスト間構造データを生成するフレームワークを提案する。
合成試料を用いたテキスト・ツー・モデルの評価における顕著な性能低下
論文 参考訳(メタデータ) (2023-01-12T02:52:51Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。