論文の概要: Semantic Evaluation for Text-to-SQL with Distilled Test Suites
- arxiv url: http://arxiv.org/abs/2010.02840v1
- Date: Tue, 6 Oct 2020 16:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 05:19:33.721963
- Title: Semantic Evaluation for Text-to-SQL with Distilled Test Suites
- Title(参考訳): 拡張テストスイートを用いたテキストからSQLへの意味評価
- Authors: Ruiqi Zhong, Tao Yu, Dan Klein
- Abstract要約: テキスト・ツー・セマンティック・モデルの精度を近似するために,テストスイートの精度を提案する。
我々は提案手法を用いて、スパイダーリーダーボードに提出された21のモデルを評価し、この手法が常に100の例で正しいことを手作業で検証する。
- 参考スコア(独自算出の注目度): 46.42548219378393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose test suite accuracy to approximate semantic accuracy for
Text-to-SQL models. Our method distills a small test suite of databases that
achieves high code coverage for the gold query from a large number of randomly
generated databases. At evaluation time, it computes the denotation accuracy of
the predicted queries on the distilled test suite, hence calculating a tight
upper-bound for semantic accuracy efficiently. We use our proposed method to
evaluate 21 models submitted to the Spider leader board and manually verify
that our method is always correct on 100 examples. In contrast, the current
Spider metric leads to a 2.5% false negative rate on average and 8.1% in the
worst case, indicating that test suite accuracy is needed. Our implementation,
along with distilled test suites for eleven Text-to-SQL datasets, is publicly
available.
- Abstract(参考訳): 本稿では,テキスト対sqlモデルの意味的精度を近似するテストスイート精度を提案する。
本手法は,多数のランダムに生成したデータベースから,ゴールドクエリに対して高いコードカバレッジを実現する小さなテストスイートを蒸留する。
評価時に、蒸留試験スイート上で予測されたクエリの表記精度を算出し、それによって、セマンティック精度を効率的に算出する。
提案手法を用いて,スパイダーリーダボードに提出した21モデルを評価し,100例について常に正しいことを手作業で検証した。
対照的に、現在のスパイダー測度は平均で2.5%の偽陰性率、最悪の場合は8.1%となり、テストスイートの精度が必要であることを示している。
私たちの実装は、11のText-to-SQLデータセット用の蒸留テストスイートとともに、公開されています。
関連論文リスト
- Neural Embeddings for Web Testing [49.66745368789056]
既存のクローラは、状態等価性を評価するために、アプリ固有のしきい値ベースのアルゴリズムに依存している。
ニューラルネットワークの埋め込みとしきい値のない分類器に基づく新しい抽象関数WEBEMBEDを提案する。
WEBEMBEDは,9つのWebアプリケーションに対する評価の結果,近距離検出により最先端技術よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-06-12T19:59:36Z) - Error Detection for Text-to-SQL Semantic Parsing [18.068244400731366]
現代のテキスト・トゥ・セマンティクスは、しばしば過信であり、実際の使用のためにデプロイされた際の信頼性に疑問を呈する。
本稿では,テキスト間セマンティック解析のためのa-独立誤差検出モデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T04:44:22Z) - SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation [13.196264569882777]
現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。
本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
論文 参考訳(メタデータ) (2023-05-10T10:01:36Z) - Learning Deep Semantics for Test Completion [46.842174440120196]
テスト完了の新たなタスクを形式化し、テスト対象の文のコンテキストとコードに基づいて、テストメソッドで次のステートメントを自動的に完了する。
テスト補完にコードセマンティクスを用いたディープラーニングモデルであるTeCoを開発した。
論文 参考訳(メタデータ) (2023-02-20T18:53:56Z) - An ensemble meta-estimator to predict source code testability [1.4213973379473652]
テストスイートのサイズは、テストの労力とコストを決定します。
本稿では,テストスイートのサイズとカバレッジについて,テスト容易性を推定する新しい方程式を提案する。
論文 参考訳(メタデータ) (2022-08-20T06:18:16Z) - KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers [26.15889661083109]
実Webデータベースのクロスドメイン評価データセットであるKDBaggleQAを提案する。
我々は、KDBaggleQAが最先端のゼロショットに挑戦していることを示しているが、より現実的な評価設定と関連するデータベースドキュメントの創造的利用により、その正確性は13.2%以上向上している。
論文 参考訳(メタデータ) (2021-06-22T00:08:03Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。