論文の概要: Semantic Evaluation for Text-to-SQL with Distilled Test Suites
- arxiv url: http://arxiv.org/abs/2010.02840v1
- Date: Tue, 6 Oct 2020 16:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 05:19:33.721963
- Title: Semantic Evaluation for Text-to-SQL with Distilled Test Suites
- Title(参考訳): 拡張テストスイートを用いたテキストからSQLへの意味評価
- Authors: Ruiqi Zhong, Tao Yu, Dan Klein
- Abstract要約: テキスト・ツー・セマンティック・モデルの精度を近似するために,テストスイートの精度を提案する。
我々は提案手法を用いて、スパイダーリーダーボードに提出された21のモデルを評価し、この手法が常に100の例で正しいことを手作業で検証する。
- 参考スコア(独自算出の注目度): 46.42548219378393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose test suite accuracy to approximate semantic accuracy for
Text-to-SQL models. Our method distills a small test suite of databases that
achieves high code coverage for the gold query from a large number of randomly
generated databases. At evaluation time, it computes the denotation accuracy of
the predicted queries on the distilled test suite, hence calculating a tight
upper-bound for semantic accuracy efficiently. We use our proposed method to
evaluate 21 models submitted to the Spider leader board and manually verify
that our method is always correct on 100 examples. In contrast, the current
Spider metric leads to a 2.5% false negative rate on average and 8.1% in the
worst case, indicating that test suite accuracy is needed. Our implementation,
along with distilled test suites for eleven Text-to-SQL datasets, is publicly
available.
- Abstract(参考訳): 本稿では,テキスト対sqlモデルの意味的精度を近似するテストスイート精度を提案する。
本手法は,多数のランダムに生成したデータベースから,ゴールドクエリに対して高いコードカバレッジを実現する小さなテストスイートを蒸留する。
評価時に、蒸留試験スイート上で予測されたクエリの表記精度を算出し、それによって、セマンティック精度を効率的に算出する。
提案手法を用いて,スパイダーリーダボードに提出した21モデルを評価し,100例について常に正しいことを手作業で検証した。
対照的に、現在のスパイダー測度は平均で2.5%の偽陰性率、最悪の場合は8.1%となり、テストスイートの精度が必要であることを示している。
私たちの実装は、11のText-to-SQLデータセット用の蒸留テストスイートとともに、公開されています。
関連論文リスト
- Text-to-SQL Calibration: No Need to Ask -- Just Rescale Model Probabilities [20.606333546028516]
モデルの全シーケンス確率から信頼を得る直接的なベースラインが、最近の手法より優れていることを示す。
2つの広く使われているテキスト・トゥ・チェック・ベンチマークと複数のアーキテクチャで実施された総合的な評価は、様々な校正戦略の有効性に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-23T19:20:24Z) - Context-Aware SQL Error Correction Using Few-Shot Learning -- A Novel Approach Based on NLQ, Error, and SQL Similarity [0.0]
本稿では,誤り訂正 insql 生成のための新しい数ショット学習手法を提案する。
与えられた自然言語質問(NLQ)に対して最も適した少数ショット誤り訂正例を選択することにより、生成されたクエリの精度を向上させる。
オープンソースデータセットを用いた実験では、単純な誤り訂正法により、誤り訂正のない修正エラーが39.2%増加し、10%増加した。
論文 参考訳(メタデータ) (2024-10-11T18:22:08Z) - FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark [8.445403382578167]
本稿では,テキスト対技術システム評価の新しいアプローチであるFLEX(False-Lesscution Execution)を紹介する。
我々の基準は、包括的文脈と洗練された基準で、人間専門家との合意を改善します。
この研究は、テキスト・トゥ・テクニカル・システムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスの理解を再構築する可能性がある。
論文 参考訳(メタデータ) (2024-09-24T01:40:50Z) - Neural Embeddings for Web Testing [49.66745368789056]
既存のクローラは、状態等価性を評価するために、アプリ固有のしきい値ベースのアルゴリズムに依存している。
ニューラルネットワークの埋め込みとしきい値のない分類器に基づく新しい抽象関数WEBEMBEDを提案する。
WEBEMBEDは,9つのWebアプリケーションに対する評価の結果,近距離検出により最先端技術よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2023-06-12T19:59:36Z) - Learning Deep Semantics for Test Completion [46.842174440120196]
テスト完了の新たなタスクを形式化し、テスト対象の文のコンテキストとコードに基づいて、テストメソッドで次のステートメントを自動的に完了する。
テスト補完にコードセマンティクスを用いたディープラーニングモデルであるTeCoを開発した。
論文 参考訳(メタデータ) (2023-02-20T18:53:56Z) - An ensemble meta-estimator to predict source code testability [1.4213973379473652]
テストスイートのサイズは、テストの労力とコストを決定します。
本稿では,テストスイートのサイズとカバレッジについて,テスト容易性を推定する新しい方程式を提案する。
論文 参考訳(メタデータ) (2022-08-20T06:18:16Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。