論文の概要: Data Augmentation with Hierarchical SQL-to-Question Generation for
Cross-domain Text-to-SQL Parsing
- arxiv url: http://arxiv.org/abs/2103.02227v1
- Date: Wed, 3 Mar 2021 07:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 03:12:27.724006
- Title: Data Augmentation with Hierarchical SQL-to-Question Generation for
Cross-domain Text-to-SQL Parsing
- Title(参考訳): クロスドメインテキスト-SQL解析のための階層型SQL-to-Question生成によるデータ拡張
- Authors: Ao Zhang, Kun Wu, Lijie Wang, Zhenghua Li, Xinyan Xiao, Hua Wu, Min
Zhang, Haifeng Wang
- Abstract要約: 本稿では,単純なデータ拡張フレームワークを提案する。
まず、データベースを与えられたら、抽象構文木文法citeyintranxに基づいて大量のsqlクエリを自動的に生成します。
第2に,高品質自然言語問題を得るための階層的sql-to-question生成モデルを提案する。
- 参考スコア(独自算出の注目度): 40.65143087243074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation has attracted a lot of research attention in the deep
learning era for its ability in alleviating data sparseness. The lack of data
for unseen evaluation databases is exactly the major challenge for cross-domain
text-to-SQL parsing. Previous works either require human intervention to
guarantee the quality of generated data \cite{yu2018syntaxsqlnet}, or fail to
handle complex SQL queries \cite{guo2018question}. This paper presents a simple
yet effective data augmentation framework. First, given a database, we
automatically produce a large amount of SQL queries based on an abstract syntax
tree grammar \cite{yin2018tranx}. We require the generated queries cover at
least 80\% of SQL patterns in the training data for better distribution
matching. Second, we propose a hierarchical SQL-to-question generation model to
obtain high-quality natural language questions, which is the major contribution
of this work. Experiments on three cross-domain datasets, i.e., WikiSQL and
Spider in English, and DuSQL in Chinese, show that our proposed data
augmentation framework can consistently improve performance over strong
baselines, and in particular the hierarchical generation model is the key for
the improvement.
- Abstract(参考訳): データ拡張は、データスパースを緩和する能力が深層学習時代に多くの研究の注目を集めている。
未確認評価データベースのデータ不足は、まさにクロスドメインのテキスト-SQL解析における大きな課題である。
以前の作業では、生成されたデータの品質を保証するために人間の介入が必要か、複雑なsqlクエリの処理に失敗したかのどちらかである。
本稿では,単純なデータ拡張フレームワークを提案する。
まず、データベースが与えられたら、抽象構文木文法 \cite{yin2018tranx} に基づいて大量のSQLクエリを自動的に生成する。
生成したクエリには、トレーニングデータ内の少なくとも80\%のsqlパターンをカバーする必要があります。
第2に,本研究の主な貢献である,高品質な自然言語問題を得るための階層型SQL-to-quest生成モデルを提案する。
3つのクロスドメインデータセット、すなわち英語でのWikiSQLとSpider、中国語のDuSQLに関する実験は、提案されたデータ拡張フレームワークが強いベースラインよりも一貫してパフォーマンスを向上させることができることを示しており、特に階層生成モデルは改善の鍵である。
関連論文リスト
- SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation [16.07396492960869]
本稿では,テキストからテキストへの変換処理に特化して設計されたトランスフォーマーアーキテクチャを提案する。
我々のモデルは、実行可能層とデコーダ層に構造的帰納バイアスを組み込んで、クエリを自動で抽象構文木(AST)として予測する。
論文 参考訳(メタデータ) (2023-10-27T00:13:59Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z) - Bertrand-DR: Improving Text-to-SQL using a Discriminative Re-ranker [1.049360126069332]
生成テキスト-リミモデルの性能向上を図るために,新しい離散型リランカを提案する。
テキスト・ト・リミモデルとリランカモデルの相対強度を最適性能として解析する。
本稿では,2つの最先端テキスト-リミモデルに適用することで,リランカの有効性を実証する。
論文 参考訳(メタデータ) (2020-02-03T04:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。