論文の概要: Controllable Data Augmentation for Context-Dependent Text-to-SQL
- arxiv url: http://arxiv.org/abs/2304.13902v1
- Date: Thu, 27 Apr 2023 01:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 14:44:45.851233
- Title: Controllable Data Augmentation for Context-Dependent Text-to-SQL
- Title(参考訳): コンテキスト依存型テキストからSQLへの制御可能なデータ拡張
- Authors: Dingzirui Wang, Longxu Dou, Wanxiang Che
- Abstract要約: 本稿では,対話型質問と対応するsql結果を生成するConDAを紹介する。
また,グラウンドモデルによるデータ品質保証のためのフィルタ手法を提案する。
その結果,ConDAが生成したデータは高品質であることが判明した。
- 参考スコア(独自算出の注目度): 46.11511797999039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The limited scale of annotated data constraints existing context-dependent
text-to-SQL models because of the complexity of labeling. The data augmentation
method is a commonly used method to solve this problem. However, the data
generated by current augmentation methods often lack diversity. In this paper,
we introduce ConDA, which generates interactive questions and corresponding SQL
results. We designed the SQL dialogue state to enhance the data diversity
through the state transition. Meanwhile, we also present a filter method to
ensure the data quality by a grounding model. Additionally, we utilize a
grounding model to identify and filter low-quality questions that mismatch the
state information. Experimental results on the SParC and CoSQL datasets show
that ConDA boosts the baseline model to achieve an average improvement of
$3.3\%$ on complex questions. Moreover, we analyze the augmented data, which
reveals that the data generated by ConDA are of high quality in both SQL
template hardness and types, turns, and question consistency.
- Abstract(参考訳): 注釈付きデータの限られたスケールは、ラベル付けの複雑さのため、既存のコンテキスト依存のテキスト-SQLモデルに制約を与える。
データ拡張法はこの問題を解決するのによく使われる方法である。
しかし、現在の拡張手法によって生成されたデータは、しばしば多様性を欠いている。
本稿では,対話型質問とそれに対応するSQL結果を生成するConDAを紹介する。
状態遷移を通じてデータの多様性を高めるためにsql対話状態を設計した。
また,接地モデルによってデータ品質を保証するフィルタ手法を提案する。
さらに,状態情報にミスマッチする低品質な質問を識別・フィルタリングするために,接地モデルを用いる。
SParCとCoSQLデータセットの実験結果によると、ConDAはベースラインモデルを強化し、複雑な問題に対して平均3.3\%の改善を達成する。
さらに,SQLテンプレートの硬度,型,ターン,質問整合性の両方において,ConDAが生成するデータが高品質であることを明らかにする。
関連論文リスト
- CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
我々は,関連するデータとコンテキストを検索し,効率的なスキーマを選択し,正確で効率的なクエリを合成する新しいパイプラインを提案する。
提案手法は,BIRDデータセットの領域横断における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation [13.196264569882777]
現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。
本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
論文 参考訳(メタデータ) (2023-05-10T10:01:36Z) - Conversational Text-to-SQL: An Odyssey into State-of-the-Art and
Challenges Ahead [6.966624873109535]
State-of-the-art (SOTA) システムは、T5ファミリーのような大規模で訓練済み、微調整された言語モデルを使用する。
トレーニング中に個別のプロンプトを持つコヒーレントなタスクに対するマルチタスク(MT)により、特殊なテキストから3つのモデルよりも改善する。
我々は、領域と構成の一般化に起因する誤りを分解する研究を行う。
論文 参考訳(メタデータ) (2023-02-21T23:15:33Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - IGSQL: Database Schema Interaction Graph Based Neural Model for
Context-Dependent Text-to-SQL Generation [61.09660709356527]
本稿では,データベーススキーマインタラクショングラフエンコーダを提案し,データベーススキーマ項目の履歴情報を利用する。
ベンチマークSParCおよびCoデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2020-11-11T12:56:21Z) - Data Agnostic RoBERTa-based Natural Language to SQL Query Generation [0.0]
NL2タスクは、自然言語による質問から有効なクエリへの変換問題を解決するために、ディープラーニングアプローチを見つけることを目的としている。
データプライバシに関するアプローチを,その中核として紹介しています。
成果は得られていないが、モデルのトレーニングからテーブルの必要性を排除した。
論文 参考訳(メタデータ) (2020-10-11T13:18:46Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。