論文の概要: STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing
- arxiv url: http://arxiv.org/abs/2210.11888v1
- Date: Fri, 21 Oct 2022 11:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:54:27.379153
- Title: STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing
- Title(参考訳): STAR: コンテキスト依存のテキスト間構文解析のためのSQLガイド付き事前訓練
- Authors: Zefeng Cai, Xiangyu Li, Binyuan Hui, Min Yang, Bowen Li, Binhua Li,
Zheng Cao, Weijie Li, Fei Huang, Luo Si, Yongbin Li
- Abstract要約: 文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 64.80483736666123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel SQL guided pre-training framework STAR for
context-dependent text-to-SQL parsing, which leverages contextual information
to enrich natural language (NL) utterance and table schema representations for
text-to-SQL conversations. Concretely, we propose two novel pre-training
objectives which respectively explore the context-dependent interactions of NL
utterances and SQL queries within each text-to-SQL conversation: (i) schema
state tracking (SST) objective that tracks and explores the schema states of
context-dependent SQL queries in the form of schema-states by predicting and
updating the value of each schema slot during interaction; (ii) utterance
dependency tracking (UDT) objective that employs weighted contrastive learning
to pull together two semantically similar NL utterances and push away the
representations of semantically dissimilar NL utterances within each
conversation. In addition, we construct a high-quality large-scale
context-dependent text-to-SQL conversation corpus to pre-train STAR. Extensive
experiments show that STAR achieves new state-of-the-art performance on two
downstream benchmarks (SParC and CoSQL), significantly outperforming previous
pre-training methods and ranking first on the leaderboard. We believe the
release of the constructed corpus, codebase and pre-trained STAR checkpoints
would push forward the research in this area. For reproducibility, we release
our code and data at
https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/star.
- Abstract(参考訳): 本稿では,文脈依存型テキストからsqlへのパースのために,自然言語(nl)発話とテーブルスキーマ表現を豊かにするために文脈情報を利用する新しいsql誘導事前学習フレームワークstarを提案する。
具体的には,各テキスト対SQL会話におけるNL発話とSQLクエリの文脈依存的な相互作用を探索する2つの新しい事前学習目標を提案する。
(i)スキーマ状態追跡(sst)目的 対話中の各スキーマスロットの値を予測し更新することにより、スキーマ状態の形式でコンテキスト依存sqlクエリのスキーマ状態を追跡し、探索する。
(II)重み付きコントラスト学習を用いて意味的に類似した2つのNL発話を抽出し、各会話内で意味的に異なるNL発話の表現をプッシュする発話依存性追跡(UDT)の目的。
さらに,STARを事前学習するために,高品質なコンテキスト依存テキスト対SQL会話コーパスを構築した。
大規模な実験により、STARは2つのダウンストリームベンチマーク(SParCとCoSQL)で新しい最先端のパフォーマンスを達成し、以前の事前トレーニング手法を著しく上回り、リーダーボードにランクインした。
構築されたコーパス、コードベース、トレーニング済みスターチェックポイントのリリースは、この分野の研究を前進させるだろうと考えています。
再現性のために、コードとデータはhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/starで公開しています。
関連論文リスト
- Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - HIE-SQL: History Information Enhanced Network for Context-Dependent
Text-to-SQL Semantic Parsing [1.343950231082215]
ヒストリー発話と最後のsqlクエリの両方からコンテキスト依存情報を利用するヒストリー情報拡張テキスト・トゥ・ザ・アート・モデル(HIE-)を提案する。
本研究では,2つの文脈依存型テキスト・トゥ・ザ・アーティカル・ベンチマークにおいて,HIE-の性能を著しく向上させる手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T11:58:37Z) - Pay More Attention to History: A Context Modeling Strategy for
Conversational Text-to-SQL [8.038535788630542]
会話型テキスト・ツー・ドメインの最も難解な問題の1つは、マルチターンクエリのセマンティクスをモデル化することである。
本稿では,各ターンの追加による意味変化の明示的モデル化とコンテキスト全体の要約により,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:41:04Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - Tracking Interaction States for Multi-Turn Text-to-SQL Semantic Parsing [44.0348697408427]
マルチターンテキスト・ツー・セマンティクスのタスクは、自然言語発話を対話からsqlクエリに変換することを目的としている。
グラフ関係ネットワークと非線形層は、2つの状態の表現をそれぞれ更新するように設計されている。
提案手法の有効性を示すため,coデータセットに挑戦する実験を行った。
論文 参考訳(メタデータ) (2020-12-09T11:59:58Z) - IGSQL: Database Schema Interaction Graph Based Neural Model for
Context-Dependent Text-to-SQL Generation [61.09660709356527]
本稿では,データベーススキーマインタラクショングラフエンコーダを提案し,データベーススキーマ項目の履歴情報を利用する。
ベンチマークSParCおよびCoデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2020-11-11T12:56:21Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。