論文の概要: Evaluating the Data Model Robustness of Text-to-SQL Systems Based on
Real User Queries
- arxiv url: http://arxiv.org/abs/2402.08349v1
- Date: Tue, 13 Feb 2024 10:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:38:42.897887
- Title: Evaluating the Data Model Robustness of Text-to-SQL Systems Based on
Real User Queries
- Title(参考訳): 実ユーザクエリに基づくテキスト対sqlシステムのデータモデルロバスト性評価
- Authors: Jonathan F\"urst, Catherine Kosten, Farhard Nooralahzadeh, Yi Zhang,
Kurt Stockinger
- Abstract要約: 本論文は,テキスト・ツー・システムのデータモデルロバスト性について,実際に評価した最初の事例である。
サッカーDBはFIFAワールドカップ2022の文脈で9ヶ月にわたって展開されたシステムである。
データはすべて、システムにライブで質問された実際のユーザ質問に基づいています。これらの質問のサブセットを手動でラベル付けし、3つの異なるデータモデルに翻訳しました。
- 参考スコア(独自算出の注目度): 4.343983685049737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL systems (also known as NL-to-SQL systems) have become an
increasingly popular solution for bridging the gap between user capabilities
and SQL-based data access. These systems translate user requests in natural
language to valid SQL statements for a specific database. Recent Text-to-SQL
systems have benefited from the rapid improvement of transformer-based language
models. However, while Text-to-SQL systems that incorporate such models
continuously reach new high scores on -- often synthetic -- benchmark datasets,
a systematic exploration of their robustness towards different data models in a
real-world, realistic scenario is notably missing. This paper provides the
first in-depth evaluation of the data model robustness of Text-to-SQL systems
in practice based on a multi-year international project focused on Text-to-SQL
interfaces. Our evaluation is based on a real-world deployment of FootballDB, a
system that was deployed over a 9 month period in the context of the FIFA World
Cup 2022, during which about 6K natural language questions were asked and
executed. All of our data is based on real user questions that were asked live
to the system. We manually labeled and translated a subset of these questions
for three different data models. For each data model, we explore the
performance of representative Text-to-SQL systems and language models. We
further quantify the impact of training data size, pre-, and post-processing
steps as well as language model inference time. Our comprehensive evaluation
sheds light on the design choices of real-world Text-to-SQL systems and their
impact on moving from research prototypes to real deployments. Last, we provide
a new benchmark dataset to the community, which is the first to enable the
evaluation of different data models for the same dataset and is substantially
more challenging than most previous datasets in terms of query complexity.
- Abstract(参考訳): テキストからSQLシステム(NL-to-SQLシステムとしても知られる)は、ユーザ機能とSQLベースのデータアクセスのギャップを埋める手段として、ますます人気が高まっている。
これらのシステムは、自然言語でユーザ要求を特定のデータベースに対して有効なSQLステートメントに変換する。
最近のText-to-SQLシステムは、トランスフォーマーベースの言語モデルの急速な改善の恩恵を受けている。
しかし、このようなモデルを組み込んだテキストからsqlへのシステムは、ベンチマークデータセット上で新たなハイスコア(しばしば合成)に達するが、現実のさまざまなデータモデルに対する強固さを体系的に探求する一方で、現実的なシナリオは特に欠落している。
本稿では,テキスト・トゥ・SQL インタフェースに着目した多年間国際プロジェクトに基づいて,テキスト・トゥ・SQL システムのデータモデルロバスト性の評価を行う。
評価は,FIFAワールドカップ2022で9ヶ月にわたって実施され,約6万件の自然言語質問が質問され,実行されたFBDBの実際の展開に基づく。
当社のデータはすべて、システムにライブで要求された実際のユーザ質問に基づいています。
3つの異なるデータモデルに対して、これらの質問のサブセットを手動でラベル付けし、翻訳しました。
各データモデルについて、代表的なテキスト-SQLシステムと言語モデルの性能について検討する。
さらに、トレーニングデータサイズ、事前および後処理ステップ、および言語モデル推論時間の影響を定量化する。
当社の総合的な評価は,実世界のテキストからsqlへのシステムの設計選択と,研究プロトタイプから実際のデプロイメントへの移行に与える影響に光を当てています。
最後に、コミュニティに新しいベンチマークデータセットを提供する。これは、同じデータセットで異なるデータモデルの評価を可能にする最初の方法であり、クエリの複雑さの観点から、以前のほとんどのデータセットよりもかなり難しい。
関連論文リスト
- Beyond Text-to-SQL for IoT Defense: A Comprehensive Framework for Querying and Classifying IoT Threats [24.62442027542548]
本研究では,10,985対のテキスト・ツー・IoTと239,398行のネットワークトラフィックからなる新しいテキスト・ツー・IoTデータセットを提案する。
以上の結果から,データの検索と推測を行う共同トレーニングにより,テキスト・トゥ・IoT全体のパフォーマンスが向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-25T14:14:35Z) - Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL [15.75829309721909]
自然言語の質問(text-to-)から正確なsqlを生成することは、長年にわたる課題である。
PLMはテキスト・ツー・タスクに利用され、有望な性能を実現している。
近年,大規模言語モデル (LLM) は自然言語理解において重要な機能を示している。
論文 参考訳(メタデータ) (2024-06-12T17:13:17Z) - CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - On the Structural Generalization in Text-to-SQL [36.56043090037171]
データベーススキーマ(DS)の構造的多様性について検討する。
本稿では,新しいテキスト間構造データを生成するフレームワークを提案する。
合成試料を用いたテキスト・ツー・モデルの評価における顕著な性能低下
論文 参考訳(メタデータ) (2023-01-12T02:52:51Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。