Fugu-MT 論文翻訳(概要): Semantic Evaluation for Text-to-SQL with Distilled Test Suites

論文の概要: Semantic Evaluation for Text-to-SQL with Distilled Test Suites

arxiv url: http://arxiv.org/abs/2010.02840v1
Date: Tue, 6 Oct 2020 16:04:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 05:19:33.721963
Title: Semantic Evaluation for Text-to-SQL with Distilled Test Suites
Title（参考訳）: 拡張テストスイートを用いたテキストからSQLへの意味評価
Authors: Ruiqi Zhong, Tao Yu, Dan Klein
Abstract要約: テキスト・ツー・セマンティック・モデルの精度を近似するために,テストスイートの精度を提案する。我々は提案手法を用いて、スパイダーリーダーボードに提出された21のモデルを評価し、この手法が常に100の例で正しいことを手作業で検証する。
参考スコア（独自算出の注目度）: 46.42548219378393
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose test suite accuracy to approximate semantic accuracy for Text-to-SQL models. Our method distills a small test suite of databases that achieves high code coverage for the gold query from a large number of randomly generated databases. At evaluation time, it computes the denotation accuracy of the predicted queries on the distilled test suite, hence calculating a tight upper-bound for semantic accuracy efficiently. We use our proposed method to evaluate 21 models submitted to the Spider leader board and manually verify that our method is always correct on 100 examples. In contrast, the current Spider metric leads to a 2.5% false negative rate on average and 8.1% in the worst case, indicating that test suite accuracy is needed. Our implementation, along with distilled test suites for eleven Text-to-SQL datasets, is publicly available.
Abstract（参考訳）: 本稿では,テキスト対sqlモデルの意味的精度を近似するテストスイート精度を提案する。本手法は,多数のランダムに生成したデータベースから,ゴールドクエリに対して高いコードカバレッジを実現する小さなテストスイートを蒸留する。評価時に、蒸留試験スイート上で予測されたクエリの表記精度を算出し、それによって、セマンティック精度を効率的に算出する。提案手法を用いて,スパイダーリーダボードに提出した21モデルを評価し,100例について常に正しいことを手作業で検証した。対照的に、現在のスパイダー測度は平均で2.5%の偽陰性率、最悪の場合は8.1%となり、テストスイートの精度が必要であることを示している。私たちの実装は、11のText-to-SQLデータセット用の蒸留テストスイートとともに、公開されています。

関連論文リスト

RetrySQL: text-to-SQL training with retry data for self-correcting query generation [1.6707278580444538]
テキスト・ツー・ジェネレーションモデルをトレーニングするための新しいアプローチであるRetryを紹介します。再試行のステップは、総合的および挑戦的な実行精度の指標において最大4ポイントの改善をもたらすことを実証する。
論文参考訳（メタデータ） (2025-07-03T11:00:49Z)
RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文参考訳（メタデータ） (2025-06-02T03:07:08Z)
Calibrating LLMs for Text-to-SQL Parsing by Leveraging Sub-clause Frequencies [28.281517110365037]
出力クエリの正しさを伝達する正当性スコアを提供するという課題について検討する。私たちの研究は、テキスト・ツー・パーシングのポストホックキャリブレーションのためのベンチマークを最初に確立したものです。
論文参考訳（メタデータ） (2025-05-27T01:01:55Z)
Text-to-SQL Calibration: No Need to Ask -- Just Rescale Model Probabilities [20.606333546028516]
モデルの全シーケンス確率から信頼を得る直接的なベースラインが、最近の手法より優れていることを示す。 2つの広く使われているテキスト・トゥ・チェック・ベンチマークと複数のアーキテクチャで実施された総合的な評価は、様々な校正戦略の有効性に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-11-23T19:20:24Z)
Context-Aware SQL Error Correction Using Few-Shot Learning -- A Novel Approach Based on NLQ, Error, and SQL Similarity [0.0]
本稿では,誤り訂正 insql 生成のための新しい数ショット学習手法を提案する。与えられた自然言語質問(NLQ)に対して最も適した少数ショット誤り訂正例を選択することにより、生成されたクエリの精度を向上させる。オープンソースデータセットを用いた実験では、単純な誤り訂正法により、誤り訂正のない修正エラーが39.2%増加し、10%増加した。
論文参考訳（メタデータ） (2024-10-11T18:22:08Z)
FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark [8.445403382578167]
本稿では,テキスト対技術システム評価の新しいアプローチであるFLEX(False-Lesscution Execution)を紹介する。我々の基準は、包括的文脈と洗練された基準で、人間専門家との合意を改善します。この研究は、テキスト・トゥ・テクニカル・システムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスの理解を再構築する可能性がある。
論文参考訳（メタデータ） (2024-09-24T01:40:50Z)
SQLFixAgent: Towards Semantic-Accurate Text-to-SQL Parsing via Consistency-Enhanced Multi-Agent Collaboration [26.193588535592767]
本稿では,SQLの誤検出と修復を目的とした,新しい一貫性向上型マルチエージェント協調フレームワークを提案する。提案するフレームワークを5つのテキスト・テキスト・ベンチマークで評価する。本手法はベースラインモデルの性能を継続的に向上させる。私たちのフレームワークは、他の高度なメソッドよりもトークン効率が高いので、より競争力があります。
論文参考訳（メタデータ） (2024-06-19T09:57:19Z)
Neural Embeddings for Web Testing [49.66745368789056]
既存のクローラは、状態等価性を評価するために、アプリ固有のしきい値ベースのアルゴリズムに依存している。ニューラルネットワークの埋め込みとしきい値のない分類器に基づく新しい抽象関数WEBEMBEDを提案する。 WEBEMBEDは,9つのWebアプリケーションに対する評価の結果,近距離検出により最先端技術よりも精度が高いことがわかった。
論文参考訳（メタデータ） (2023-06-12T19:59:36Z)
Learning Deep Semantics for Test Completion [46.842174440120196]
テスト完了の新たなタスクを形式化し、テスト対象の文のコンテキストとコードに基づいて、テストメソッドで次のステートメントを自動的に完了する。テスト補完にコードセマンティクスを用いたディープラーニングモデルであるTeCoを開発した。
論文参考訳（メタデータ） (2023-02-20T18:53:56Z)
An ensemble meta-estimator to predict source code testability [1.4213973379473652]
テストスイートのサイズは、テストの労力とコストを決定します。本稿では,テストスイートのサイズとカバレッジについて,テスト容易性を推定する新しい方程式を提案する。
論文参考訳（メタデータ） (2022-08-20T06:18:16Z)
Double Perturbation: On the Robustness of Robustness and Counterfactual Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文参考訳（メタデータ） (2021-04-12T06:57:36Z)
Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文参考訳（メタデータ） (2020-05-19T17:48:32Z)
ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文参考訳（メタデータ） (2020-04-29T17:53:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。