論文の概要: Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL
Robustness
- arxiv url: http://arxiv.org/abs/2301.08881v1
- Date: Sat, 21 Jan 2023 03:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:59:31.815737
- Title: Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL
Robustness
- Title(参考訳): Dr.Spider: テキストからSQLへのロバストネスに対する診断評価ベンチマーク
- Authors: Shuaichen Chang, Jun Wang, Mingwen Dong, Lin Pan, Henghui Zhu,
Alexander Hanbo Li, Wuwei Lan, Sheng Zhang, Jiarong Jiang, Joseph Lilien,
Steve Ash, William Yang Wang, Zhiguo Wang, Vittorio Castelli, Patrick Ng,
Bing Xiang
- Abstract要約: 近年の研究では、テキスト・ツー・モデルはタスク固有の摂動に弱いことが示されている。
モデル診断のための包括的ロバスト性ベンチマークを提案する。
我々は、そのセット上の最先端モデルの診断研究を行う。
- 参考スコア(独自算出の注目度): 115.66421993459663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural text-to-SQL models have achieved remarkable performance in translating
natural language questions into SQL queries. However, recent studies reveal
that text-to-SQL models are vulnerable to task-specific perturbations. Previous
curated robustness test sets usually focus on individual phenomena. In this
paper, we propose a comprehensive robustness benchmark based on Spider, a
cross-domain text-to-SQL benchmark, to diagnose the model robustness. We design
17 perturbations on databases, natural language questions, and SQL queries to
measure the robustness from different angles. In order to collect more
diversified natural question perturbations, we utilize large pretrained
language models (PLMs) to simulate human behaviors in creating natural
questions. We conduct a diagnostic study of the state-of-the-art models on the
robustness set. Experimental results reveal that even the most robust model
suffers from a 14.0% performance drop overall and a 50.7% performance drop on
the most challenging perturbation. We also present a breakdown analysis
regarding text-to-SQL model designs and provide insights for improving model
robustness.
- Abstract(参考訳): ニューラルテキストからSQLへのモデルでは、自然言語の質問をSQLクエリに変換することで、優れたパフォーマンスを実現している。
しかし、最近の研究では、テキスト・トゥ・SQLモデルがタスク固有の摂動に弱いことが示されている。
以前の硬化した堅牢性テストセットは、通常個々の現象に焦点を当てる。
本稿では,モデルロバストネスを診断するためのクロスドメインテキスト-SQLベンチマークであるSpiderに基づく総合ロバストネスベンチマークを提案する。
データベース,自然言語質問,SQLクエリに対して17の摂動を設計し,異なる角度からロバスト性を測定する。
より多様化した自然質問の摂動を収集するために,大規模事前学習言語モデル (plm) を用いて人間の行動をシミュレートし,自然質問を作成する。
我々は,ロバスト性セットに関する最先端モデルの診断研究を行う。
実験の結果、最も頑健なモデルでさえ、全体的なパフォーマンス低下が14.0%、最も難しい摂動が50.7%低下していることが判明した。
また,テキストからsqlへのモデル設計に関する概説分析を行い,モデルのロバスト性を改善するための洞察を提供する。
関連論文リスト
- TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring [11.78795632771211]
本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。
2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
論文 参考訳(メタデータ) (2024-03-23T16:12:52Z) - CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - Improving Generalization in Semantic Parsing by Increasing Natural
Language Variation [67.13483734810852]
本研究では,テキスト間セマンティック解析の堅牢性を高めるためにデータ拡張を利用する。
私たちは、より現実的で多様な質問を生成するために、大きな言語モデルの能力を活用しています。
いくつかのプロンプトを使って、スパイダー内の質問の数を2倍に増やすことができる。
論文 参考訳(メタデータ) (2024-02-13T18:48:23Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Towards Robustness of Text-to-SQL Models Against Natural and Realistic
Adversarial Table Perturbation [38.00832631674398]
本稿では,テキスト・テキスト・モデルのロバスト性を測定するための新たな攻撃パラダイムとして,ATP(Adversarial Table Perturbation)を導入する。
我々は、データの文脈化を改善するために、体系的な逆トレーニング例生成フレームワークを構築した。
実験により,本手法はテーブル側摂動に対する最良の改善をもたらすだけでなく,NL側摂動に対するモデルを大幅に強化することを示した。
論文 参考訳(メタデータ) (2022-12-20T04:38:23Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。