論文の概要: Evaluating the Data Model Robustness of Text-to-SQL Systems Based on
Real User Queries
- arxiv url: http://arxiv.org/abs/2402.08349v1
- Date: Tue, 13 Feb 2024 10:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:38:42.897887
- Title: Evaluating the Data Model Robustness of Text-to-SQL Systems Based on
Real User Queries
- Title(参考訳): 実ユーザクエリに基づくテキスト対sqlシステムのデータモデルロバスト性評価
- Authors: Jonathan F\"urst, Catherine Kosten, Farhard Nooralahzadeh, Yi Zhang,
Kurt Stockinger
- Abstract要約: 本論文は,テキスト・ツー・システムのデータモデルロバスト性について,実際に評価した最初の事例である。
サッカーDBはFIFAワールドカップ2022の文脈で9ヶ月にわたって展開されたシステムである。
データはすべて、システムにライブで質問された実際のユーザ質問に基づいています。これらの質問のサブセットを手動でラベル付けし、3つの異なるデータモデルに翻訳しました。
- 参考スコア(独自算出の注目度): 4.343983685049737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL systems (also known as NL-to-SQL systems) have become an
increasingly popular solution for bridging the gap between user capabilities
and SQL-based data access. These systems translate user requests in natural
language to valid SQL statements for a specific database. Recent Text-to-SQL
systems have benefited from the rapid improvement of transformer-based language
models. However, while Text-to-SQL systems that incorporate such models
continuously reach new high scores on -- often synthetic -- benchmark datasets,
a systematic exploration of their robustness towards different data models in a
real-world, realistic scenario is notably missing. This paper provides the
first in-depth evaluation of the data model robustness of Text-to-SQL systems
in practice based on a multi-year international project focused on Text-to-SQL
interfaces. Our evaluation is based on a real-world deployment of FootballDB, a
system that was deployed over a 9 month period in the context of the FIFA World
Cup 2022, during which about 6K natural language questions were asked and
executed. All of our data is based on real user questions that were asked live
to the system. We manually labeled and translated a subset of these questions
for three different data models. For each data model, we explore the
performance of representative Text-to-SQL systems and language models. We
further quantify the impact of training data size, pre-, and post-processing
steps as well as language model inference time. Our comprehensive evaluation
sheds light on the design choices of real-world Text-to-SQL systems and their
impact on moving from research prototypes to real deployments. Last, we provide
a new benchmark dataset to the community, which is the first to enable the
evaluation of different data models for the same dataset and is substantially
more challenging than most previous datasets in terms of query complexity.
- Abstract(参考訳): テキストからSQLシステム(NL-to-SQLシステムとしても知られる)は、ユーザ機能とSQLベースのデータアクセスのギャップを埋める手段として、ますます人気が高まっている。
これらのシステムは、自然言語でユーザ要求を特定のデータベースに対して有効なSQLステートメントに変換する。
最近のText-to-SQLシステムは、トランスフォーマーベースの言語モデルの急速な改善の恩恵を受けている。
しかし、このようなモデルを組み込んだテキストからsqlへのシステムは、ベンチマークデータセット上で新たなハイスコア(しばしば合成)に達するが、現実のさまざまなデータモデルに対する強固さを体系的に探求する一方で、現実的なシナリオは特に欠落している。
本稿では,テキスト・トゥ・SQL インタフェースに着目した多年間国際プロジェクトに基づいて,テキスト・トゥ・SQL システムのデータモデルロバスト性の評価を行う。
評価は,FIFAワールドカップ2022で9ヶ月にわたって実施され,約6万件の自然言語質問が質問され,実行されたFBDBの実際の展開に基づく。
当社のデータはすべて、システムにライブで要求された実際のユーザ質問に基づいています。
3つの異なるデータモデルに対して、これらの質問のサブセットを手動でラベル付けし、翻訳しました。
各データモデルについて、代表的なテキスト-SQLシステムと言語モデルの性能について検討する。
さらに、トレーニングデータサイズ、事前および後処理ステップ、および言語モデル推論時間の影響を定量化する。
当社の総合的な評価は,実世界のテキストからsqlへのシステムの設計選択と,研究プロトタイプから実際のデプロイメントへの移行に与える影響に光を当てています。
最後に、コミュニティに新しいベンチマークデータセットを提供する。これは、同じデータセットで異なるデータモデルの評価を可能にする最初の方法であり、クエリの複雑さの観点から、以前のほとんどのデータセットよりもかなり難しい。
関連論文リスト
- CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation [13.196264569882777]
現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。
本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
論文 参考訳(メタデータ) (2023-05-10T10:01:36Z) - On the Structural Generalization in Text-to-SQL [36.56043090037171]
データベーススキーマ(DS)の構造的多様性について検討する。
本稿では,新しいテキスト間構造データを生成するフレームワークを提案する。
合成試料を用いたテキスト・ツー・モデルの評価における顕著な性能低下
論文 参考訳(メタデータ) (2023-01-12T02:52:51Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers [26.15889661083109]
実Webデータベースのクロスドメイン評価データセットであるKDBaggleQAを提案する。
我々は、KDBaggleQAが最先端のゼロショットに挑戦していることを示しているが、より現実的な評価設定と関連するデータベースドキュメントの創造的利用により、その正確性は13.2%以上向上している。
論文 参考訳(メタデータ) (2021-06-22T00:08:03Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。