論文の概要: TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL
Generation
- arxiv url: http://arxiv.org/abs/2006.06434v1
- Date: Wed, 10 Jun 2020 03:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:56:28.526397
- Title: TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL
Generation
- Title(参考訳): TableQA: テーブル対応SQL生成のための大規模中国語テキスト-SQLデータセット
- Authors: Ningyuan Sun, Xuefeng Yang, Yunfeng Liu
- Abstract要約: 既存のNL2データセットは、条件値が自然言語の質問に正確に現れるべきであり、クエリはテーブルから答えられると仮定する。
6,000のテーブル上で64,891の質問と20,311のユニークなsqlクエリからなる中国語の大規模クロスドメイン自然言語データセットであるTableQAを提案する。
問題を軽減するために2つのテーブル認識アプローチを提案し、エンドツーエンドアプローチでは条件値と論理形式タスクにおいて51.3%と47.4%の精度が得られ、それぞれ4.7%と3.4%が改善された。
- 参考スコア(独自算出の注目度): 3.4161707164978137
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Parsing natural language to corresponding SQL (NL2SQL) with data driven
approaches like deep neural networks attracts much attention in recent years.
Existing NL2SQL datasets assume that condition values should appear exactly in
natural language questions and the queries are answerable given the table.
However, these assumptions may fail in practical scenarios, because user may
use different expressions for the same content in the table, and query
information outside the table without the full picture of contents in table.
Therefore we present TableQA, a large-scale cross-domain Natural Language to
SQL dataset in Chinese language consisting 64,891 questions and 20,311 unique
SQL queries on over 6,000 tables. Different from exisiting NL2SQL datasets,
TableQA requires to generalize well not only to SQL skeletons of different
questions and table schemas, but also to the various expressions for condition
values. Experiment results show that the state-of-the-art model with 95.1%
condition value accuracy on WikiSQL only gets 46.8% condition value accuracy
and 43.0% logic form accuracy on TableQA, indicating the proposed dataset is
challenging and necessary to handle. Two table-aware approaches are proposed to
alleviate the problem, the end-to-end approaches obtains 51.3% and 47.4%
accuracy on the condition value and logic form tasks, with improvement of 4.7%
and 3.4% respectively.
- Abstract(参考訳): 近年、ディープニューラルネットワークのようなデータ駆動アプローチで自然言語を対応するSQL(NL2SQL)に解析することが注目されている。
既存のNL2SQLデータセットは、条件値が自然言語の質問に正確に現れるべきであり、クエリはテーブルから答えられると仮定する。
しかし、これらの仮定は、ユーザがテーブル内の同じコンテンツに対して異なる表現を使い、テーブル内のコンテンツの全体像なしでテーブル外の情報をクエリできるため、現実的なシナリオでは失敗する可能性がある。
そこで我々は,64,891の質問と2,311のユニークなSQLクエリからなる中国語の大規模クロスドメイン自然言語からSQLへのデータセットであるTableQAを提案する。
NL2SQLデータセットの消し出しとは異なり、TableQAは、異なる質問やテーブルスキーマのSQLスケルトンだけでなく、条件値のさまざまな式に対しても、適切に一般化する必要がある。
実験の結果、wikisqlの条件値精度95.1%の最先端モデルは、tableqaの条件値精度46.8%と論理フォーム精度43.0%しか得られず、提案されたデータセットの処理が困難で必要であることが示されている。
問題を軽減するために2つのテーブル認識アプローチを提案し、エンドツーエンドアプローチでは条件値と論理形式タスクの精度が51.3%と47.4%、それぞれ4.7%と3.4%向上した。
関連論文リスト
- RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - DataGpt-SQL-7B: An Open-Source Language Model for Text-to-SQL [7.76068876576964]
我々は,データアクセスと分析を非専門ユーザ向けに民主化する,コンパクトで微調整されたモデルと自己定義機構のスイートを提案する。
我々のシステムであるDataGpt-sqlは、スパイダーデブで87.2%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-24T11:38:08Z) - SelECT-SQL: Self-correcting ensemble Chain-of-Thought for Text-to-SQL [3.422309388045878]
SelECT-は、チェーン・オブ・シンク、自己補正、アンサンブルの手法をアルゴリズムで組み合わせた、新しいインコンテキスト学習ソリューションである。
具体的には、GPTをベースLLMとして使用する場合、SelECT-Turboはスパイダーリーダーボードの開発セット上で84.2%の実行精度を達成する。
論文 参考訳(メタデータ) (2024-09-16T05:40:18Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - Analyzing the Effectiveness of Large Language Models on Text-to-SQL
Synthesis [4.412170175171256]
本研究では,大規模言語モデルを用いたテキスト・ツー・プログラム合成における様々なアプローチについて検討する。
目標は、データベーススキーマと共に自然言語の質問を入力し、正しいSELECTクエリを出力することであった。
論文 参考訳(メタデータ) (2024-01-22T22:05:42Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Data Agnostic RoBERTa-based Natural Language to SQL Query Generation [0.0]
NL2タスクは、自然言語による質問から有効なクエリへの変換問題を解決するために、ディープラーニングアプローチを見つけることを目的としている。
データプライバシに関するアプローチを,その中核として紹介しています。
成果は得られていないが、モデルのトレーニングからテーブルの必要性を排除した。
論文 参考訳(メタデータ) (2020-10-11T13:18:46Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。