論文の概要: TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL
Generation
- arxiv url: http://arxiv.org/abs/2006.06434v1
- Date: Wed, 10 Jun 2020 03:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:56:28.526397
- Title: TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL
Generation
- Title(参考訳): TableQA: テーブル対応SQL生成のための大規模中国語テキスト-SQLデータセット
- Authors: Ningyuan Sun, Xuefeng Yang, Yunfeng Liu
- Abstract要約: 既存のNL2データセットは、条件値が自然言語の質問に正確に現れるべきであり、クエリはテーブルから答えられると仮定する。
6,000のテーブル上で64,891の質問と20,311のユニークなsqlクエリからなる中国語の大規模クロスドメイン自然言語データセットであるTableQAを提案する。
問題を軽減するために2つのテーブル認識アプローチを提案し、エンドツーエンドアプローチでは条件値と論理形式タスクにおいて51.3%と47.4%の精度が得られ、それぞれ4.7%と3.4%が改善された。
- 参考スコア(独自算出の注目度): 3.4161707164978137
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Parsing natural language to corresponding SQL (NL2SQL) with data driven
approaches like deep neural networks attracts much attention in recent years.
Existing NL2SQL datasets assume that condition values should appear exactly in
natural language questions and the queries are answerable given the table.
However, these assumptions may fail in practical scenarios, because user may
use different expressions for the same content in the table, and query
information outside the table without the full picture of contents in table.
Therefore we present TableQA, a large-scale cross-domain Natural Language to
SQL dataset in Chinese language consisting 64,891 questions and 20,311 unique
SQL queries on over 6,000 tables. Different from exisiting NL2SQL datasets,
TableQA requires to generalize well not only to SQL skeletons of different
questions and table schemas, but also to the various expressions for condition
values. Experiment results show that the state-of-the-art model with 95.1%
condition value accuracy on WikiSQL only gets 46.8% condition value accuracy
and 43.0% logic form accuracy on TableQA, indicating the proposed dataset is
challenging and necessary to handle. Two table-aware approaches are proposed to
alleviate the problem, the end-to-end approaches obtains 51.3% and 47.4%
accuracy on the condition value and logic form tasks, with improvement of 4.7%
and 3.4% respectively.
- Abstract(参考訳): 近年、ディープニューラルネットワークのようなデータ駆動アプローチで自然言語を対応するSQL(NL2SQL)に解析することが注目されている。
既存のNL2SQLデータセットは、条件値が自然言語の質問に正確に現れるべきであり、クエリはテーブルから答えられると仮定する。
しかし、これらの仮定は、ユーザがテーブル内の同じコンテンツに対して異なる表現を使い、テーブル内のコンテンツの全体像なしでテーブル外の情報をクエリできるため、現実的なシナリオでは失敗する可能性がある。
そこで我々は,64,891の質問と2,311のユニークなSQLクエリからなる中国語の大規模クロスドメイン自然言語からSQLへのデータセットであるTableQAを提案する。
NL2SQLデータセットの消し出しとは異なり、TableQAは、異なる質問やテーブルスキーマのSQLスケルトンだけでなく、条件値のさまざまな式に対しても、適切に一般化する必要がある。
実験の結果、wikisqlの条件値精度95.1%の最先端モデルは、tableqaの条件値精度46.8%と論理フォーム精度43.0%しか得られず、提案されたデータセットの処理が困難で必要であることが示されている。
問題を軽減するために2つのテーブル認識アプローチを提案し、エンドツーエンドアプローチでは条件値と論理形式タスクの精度が51.3%と47.4%、それぞれ4.7%と3.4%向上した。
関連論文リスト
- Archer: A Human-Labeled Text-to-SQL Dataset with Arithmetic, Commonsense
and Hypothetical Reasoning [67.7258569181669]
このデータセットは、既存の公開データセットと比較して、はるかに高い複雑さを示している。
アーチャーは現在の最先端モデルの能力に挑戦し、スパイダーのリーダーボードの上位モデルはアーチャーのテストセットで6.73%の精度しか達成していない。
論文 参考訳(メタデータ) (2024-02-19T21:24:36Z) - Analyzing the Effectiveness of Large Language Models on Text-to-SQL
Synthesis [4.412170175171256]
本研究では,大規模言語モデルを用いたテキスト・ツー・プログラム合成における様々なアプローチについて検討する。
目標は、データベーススキーマと共に自然言語の質問を入力し、正しいSELECTクエリを出力することであった。
論文 参考訳(メタデータ) (2024-01-22T22:05:42Z) - Fine-Tuning Language Models for Context-Specific SQL Query Generation [0.0]
本稿では,自然言語を tosql クエリに変換するタスクに対して,オープンソースの大規模言語モデル (LLM) を微調整する新しい手法を提案する。
我々は、Snowflake SQLとGoogleの方言に合わせて、合成データセットに基づいて訓練されたsqlクエリ生成に特化したモデルを紹介する。
提案手法では,GPT-4を用いてコンテキスト固有のデータセットを生成し,リソース制約を最適化するためにLoRa技術を用いて3つのオープンソースLCM(Starcoder Plus,Code-Llama,Mistral)を微調整する。
微調整モデルでは、ベースラインGPと比較してゼロショット設定では優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-04T18:04:27Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - Conversational Text-to-SQL: An Odyssey into State-of-the-Art and
Challenges Ahead [6.966624873109535]
State-of-the-art (SOTA) システムは、T5ファミリーのような大規模で訓練済み、微調整された言語モデルを使用する。
トレーニング中に個別のプロンプトを持つコヒーレントなタスクに対するマルチタスク(MT)により、特殊なテキストから3つのモデルよりも改善する。
我々は、領域と構成の一般化に起因する誤りを分解する研究を行う。
論文 参考訳(メタデータ) (2023-02-21T23:15:33Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - TableFormer: Robust Transformer Modeling for Table-Text Encoding [18.00127368618485]
テーブル理解のための既存のモデルはテーブル構造の線形化を必要とし、行や列の順序は不要なバイアスとしてエンコードされる。
本研究では,テーブルテキストエンコーディングアーキテクチャであるTableFormerを提案する。
論文 参考訳(メタデータ) (2022-03-01T07:23:06Z) - Data Agnostic RoBERTa-based Natural Language to SQL Query Generation [0.0]
NL2タスクは、自然言語による質問から有効なクエリへの変換問題を解決するために、ディープラーニングアプローチを見つけることを目的としている。
データプライバシに関するアプローチを,その中核として紹介しています。
成果は得られていないが、モデルのトレーニングからテーブルの必要性を排除した。
論文 参考訳(メタデータ) (2020-10-11T13:18:46Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。