論文の概要: Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play
- arxiv url: http://arxiv.org/abs/2210.12096v1
- Date: Fri, 21 Oct 2022 16:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:02:45.748043
- Title: Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play
- Title(参考訳): セルフプレイによるマルチターンテキスト-SQLデータセットの拡張
- Authors: Qi Liu, Zihuiwen Ye, Tao Yu, Phil Blunsom, Linfeng Song
- Abstract要約: 我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
- 参考スコア(独自算出の注目度): 46.07002748587857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of context-dependent text-to-SQL aims to convert multi-turn user
utterances to formal SQL queries. This is a challenging task due to both the
scarcity of training data from which to learn complex contextual dependencies
and to generalize to unseen databases. In this paper we explore augmenting the
training datasets using self-play, which leverages contextual information to
synthesize new interactions to adapt the model to new databases. We first
design a SQL-to-text model conditioned on a sampled goal query, which
represents a user's intent, that then converses with a text-to-SQL semantic
parser to generate new interactions. We then filter the synthesized
interactions and retrain the models with the augmented data. We find that
self-play improves the accuracy of a strong baseline on SParC and CoSQL, two
widely used cross-domain text-to-SQL datasets. Our analysis shows that
self-play simulates various conversational thematic relations, enhances
cross-domain generalization and improves beam-search.
- Abstract(参考訳): コンテキスト依存のテキストからSQLへのタスクは、マルチターンユーザの発話を形式的なSQLクエリに変換することを目的としている。
複雑なコンテキスト依存を学習し、目に見えないデータベースに一般化するトレーニングデータの不足のため、これは難しい作業です。
本稿では,コンテキスト情報を利用して新たなインタラクションを合成し,モデルを新しいデータベースに適応させるセルフプレイによるトレーニングデータセットの拡張について検討する。
まず,ユーザの意図を表す目標クエリをサンプル化したsql-to-textモデルを設計し,テキスト-sql意味パーサと対話して新たなインタラクションを生成する。
次に、合成された相互作用をフィルタリングし、拡張データでモデルを再訓練する。
我々は,SParCとCoSQLという2つのクロスドメインテキスト-SQLデータセットの強いベースラインの精度を向上させることを発見した。
分析の結果、自己プレイは様々な対話的テーマの関係をシミュレートし、ドメイン間の一般化を促進し、ビーム探索を改善する。
関連論文リスト
- SQL-GEN: Bridging the Dialect Gap for Text-to-SQL Via Synthetic Data And Model Merging [30.306023265985658]
あらゆる方言に対して高品質な合成学習データを生成するためのフレームワークを提案する。
本稿では,方言間の共有知識を活用する新しいMixture-of-Experts(MoE)を提案する。
論文 参考訳(メタデータ) (2024-08-22T20:50:48Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Diverse Parallel Data Synthesis for Cross-Database Adaptation of
Text-to-SQL Parsers [21.272952382662215]
新しいデータベースへの適応は、新しいスキーマに自然言語クエリがないため、難しい問題である。
ターゲットスキーマにText-to-editを適用するためのフレームワークであるReFillを提案する。
論文 参考訳(メタデータ) (2022-10-29T14:30:53Z) - STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-10-21T11:30:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Pay More Attention to History: A Context Modeling Strategy for
Conversational Text-to-SQL [8.038535788630542]
会話型テキスト・ツー・ドメインの最も難解な問題の1つは、マルチターンクエリのセマンティクスをモデル化することである。
本稿では,各ターンの追加による意味変化の明示的モデル化とコンテキスト全体の要約により,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:41:04Z) - IGSQL: Database Schema Interaction Graph Based Neural Model for
Context-Dependent Text-to-SQL Generation [61.09660709356527]
本稿では,データベーススキーマインタラクショングラフエンコーダを提案し,データベーススキーマ項目の履歴情報を利用する。
ベンチマークSParCおよびCoデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2020-11-11T12:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。