論文の概要: Structure-Grounded Pretraining for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2010.12773v3
- Date: Wed, 31 Aug 2022 00:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 11:50:06.245913
- Title: Structure-Grounded Pretraining for Text-to-SQL
- Title(参考訳): テキストからSQLへの構造化事前学習
- Authors: Xiang Deng, Ahmed Hassan Awadallah, Christopher Meek, Oleksandr
Polozov, Huan Sun, Matthew Richardson
- Abstract要約: 本稿では,テキストからLARGEへの構造化事前学習フレームワーク(G)について述べる。
カラムグラウンド、バリューグラウンド、カラム値マッピングといった新しい予測タスクのセットを特定し、それらをテキストテーブルエンコーダの事前訓練に活用する。
- 参考スコア(独自算出の注目度): 75.19554243393814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to capture text-table alignment is essential for tasks like
text-to-SQL. A model needs to correctly recognize natural language references
to columns and values and to ground them in the given database schema. In this
paper, we present a novel weakly supervised Structure-Grounded pretraining
framework (StruG) for text-to-SQL that can effectively learn to capture
text-table alignment based on a parallel text-table corpus. We identify a set
of novel prediction tasks: column grounding, value grounding and column-value
mapping, and leverage them to pretrain a text-table encoder. Additionally, to
evaluate different methods under more realistic text-table alignment settings,
we create a new evaluation set Spider-Realistic based on Spider dev set with
explicit mentions of column names removed, and adopt eight existing text-to-SQL
datasets for cross-database evaluation. STRUG brings significant improvement
over BERT-LARGE in all settings. Compared with existing pretraining methods
such as GRAPPA, STRUG achieves similar performance on Spider, and outperforms
all baselines on more realistic sets. The Spider-Realistic dataset is available
at https://doi.org/10.5281/zenodo.5205322.
- Abstract(参考訳): Text-to-SQLのようなタスクには、テキストテーブルのアライメントをキャプチャする学習が不可欠だ。
モデルは、列や値に対する自然言語の参照を正しく認識し、与えられたデータベーススキーマにそれらを置く必要がある。
本稿では,テキストテーブルコーパスに基づいてテキストテーブルアライメントを効果的に取得できる,テキストからSQLへの構造化事前学習フレームワーク(StruG)を提案する。
カラムグラウンド,バリューグラウンド,カラム値マッピングという,一連の新しい予測タスクを特定し,それらをテキストテーブルエンコーダの事前トレーニングに活用する。
さらに、より現実的なテキストテーブルアライメント設定下で異なるメソッドを評価するために、カラム名の明示的な言及を含むスパイダー・リアリスティックをベースとした新しい評価セットを作成し、既存の8つのテキスト-SQLデータセットをデータベース間評価に適用する。
STRUGはすべての設定でBERT-LARGEよりも大幅に改善されている。
GRAPPAのような既存の事前学習手法と比較して、STRUGはスパイダーで同様の性能を達成し、より現実的なセットで全てのベースラインを上回ります。
Spider-Realisticデータセットはhttps://doi.org/10.5281/zenodo.5205322で公開されている。
関連論文リスト
- UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-10-21T11:30:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Self-supervised Text-to-SQL Learning with Header Alignment Training [4.518012967046983]
自己教師付き学習は、さまざまな分野におけるディープラーニングの最近の成功のデファクトコンポーネントである。
自己監督型学習目標とタスク特化型学習目標の相違に取り組むための,新たな自己監督型学習フレームワークを提案する。
本手法は,希少なラベル付きデータを用いたモデルトレーニングに有効である。
論文 参考訳(メタデータ) (2021-03-11T01:09:59Z) - GP: Context-free Grammar Pre-training for Text-to-SQL Parsers [7.652782364282768]
Grammar Pre-training (GP) は質問とデータベースの深い関係を解読するために提案されている。
実験により,本手法は訓練中に収束しやすく,堅牢性に優れることがわかった。
論文 参考訳(メタデータ) (2021-01-25T05:41:31Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z) - Hybrid Ranking Network for Text-to-SQL [9.731436359069493]
そこで我々は,Hybrid Ranking Network (HydraNet) という手法を提案する。
データセットの実験では、提案されたアプローチが非常に効果的であることを示し、リーダーボードでトップの座を獲得している。
論文 参考訳(メタデータ) (2020-08-11T15:01:52Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。