論文の概要: Towards Robustness of Text-to-SQL Models against Synonym Substitution
- arxiv url: http://arxiv.org/abs/2106.01065v1
- Date: Wed, 2 Jun 2021 10:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:33:56.928001
- Title: Towards Robustness of Text-to-SQL Models against Synonym Substitution
- Title(参考訳): 同期置換に対するテキスト-SQLモデルのロバスト性に向けて
- Authors: Yujian Gan, Xinyun Chen, Qiuping Huang, Matthew Purver, John R.
Woodward, Jinxia Xie, Pengsheng Huang
- Abstract要約: 我々は、テキストから世界への質問翻訳のためのSpiderベンチマークに基づくデータセットであるSpider-Synを紹介する。
我々は,NL質問とテーブルスキーマとの明示的な対応を排除し,精度を劇的に低下させることを観察した。
モデルロバスト性を改善するためのアプローチのカテゴリを2つ提示する。
- 参考スコア(独自算出の注目度): 15.047104267689052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been significant progress in studying neural networks to
translate text descriptions into SQL queries. Despite achieving good
performance on some public benchmarks, existing text-to-SQL models typically
rely on the lexical matching between words in natural language (NL) questions
and tokens in table schemas, which may render the models vulnerable to attacks
that break the schema linking mechanism. In this work, we investigate the
robustness of text-to-SQL models to synonym substitution. In particular, we
introduce Spider-Syn, a human-curated dataset based on the Spider benchmark for
text-to-SQL translation. NL questions in Spider-Syn are modified from Spider,
by replacing their schema-related words with manually selected synonyms that
reflect real-world question paraphrases. We observe that the accuracy
dramatically drops by eliminating such explicit correspondence between NL
questions and table schemas, even if the synonyms are not adversarially
selected to conduct worst-case adversarial attacks. Finally, we present two
categories of approaches to improve the model robustness. The first category of
approaches utilizes additional synonym annotations for table schemas by
modifying the model input, while the second category is based on adversarial
training. We demonstrate that both categories of approaches significantly
outperform their counterparts without the defense, and the first category of
approaches are more effective.
- Abstract(参考訳): 近年,テキスト記述をSQLクエリに変換するニューラルネットワークの研究が著しく進展している。
いくつかの公開ベンチマークで優れたパフォーマンスを達成したにもかかわらず、既存のtext-to-sqlモデルは、典型的には自然言語(nl)の単語とテーブルスキーマのトークンの辞書マッチングに依存している。
本研究では,テキスト間SQLモデルの同義置換に対する堅牢性について検討する。
特に,テキスト・トゥ・SQL翻訳のためのSpiderベンチマークに基づく人間計算データセットであるSpider-Synを紹介する。
spider-synのnl質問は、スキーマ関連の単語を現実世界の質問パラフレーズを反映した手動で選択したシノニムに置き換えることで、スパイダーから修正される。
我々は,NL問合せとテーブルスキーマとの明示的な対応を排除し,その精度を劇的に低下させることを観察した。
最後に,モデルロバスト性を改善するための2つのアプローチについて述べる。
アプローチの第1カテゴリは、モデル入力を変更することでテーブルスキーマに対する追加の同義語アノテーションを使用し、第2カテゴリは敵の訓練に基づいている。
両アプローチのカテゴリが防御なしで相手を著しく上回り,第1カテゴリのアプローチがより効果的であることを実証した。
関連論文リスト
- Towards Robustness of Text-to-SQL Models Against Natural and Realistic
Adversarial Table Perturbation [38.00832631674398]
本稿では,テキスト・テキスト・モデルのロバスト性を測定するための新たな攻撃パラダイムとして,ATP(Adversarial Table Perturbation)を導入する。
我々は、データの文脈化を改善するために、体系的な逆トレーニング例生成フレームワークを構築した。
実験により,本手法はテーブル側摂動に対する最良の改善をもたらすだけでなく,NL側摂動に対するモデルを大幅に強化することを示した。
論文 参考訳(メタデータ) (2022-12-20T04:38:23Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - ShadowGNN: Graph Projection Neural Network for Text-to-SQL Parser [36.12921337235763]
抽象レベルとセマンティックレベルでスキーマを処理する新しいアーキテクチャであるShadowGNNを提案します。
チャレンジングなText-to-Spiderベンチマークでは、経験的な結果がShadowGNNが最先端のモデルを上回ることを示しています。
論文 参考訳(メタデータ) (2021-04-10T05:48:28Z) - MT-Teql: Evaluating and Augmenting Consistency of Text-to-SQL Models
with Metamorphic Testing [11.566463879334862]
MT-Teqlは,テキスト保存モデルの一貫性を評価し,拡張するメタモルフィックテストベースのフレームワークである。
我々のフレームワークは、SOTAモデルから数千の予測エラーを公開し、既存のデータセットを桁違いに拡張し、標準精度を損なうことなく40%以上の矛盾エラーを除去する。
論文 参考訳(メタデータ) (2020-12-21T07:43:31Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。