Fugu-MT 論文翻訳(概要): SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification

論文の概要: SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification

arxiv url: http://arxiv.org/abs/2510.26840v1
Date: Thu, 30 Oct 2025 02:29:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-03 17:52:15.862442
Title: SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification
Title（参考訳）: SpotIt: 形式検証によるテキスト間SQL評価の評価
Authors: Rocky Klopfenstein, Yang He, Andrew Tremante, Yuepeng Wang, Nina Narodytska, Haoze Wu,
Abstract要約: 本研究では,提案する新たな評価パイプラインであるSpotItを提案する。そこでは,正規の有界同値検証エンジンが,生成したクエリと接地トルースクエリを区別するデータベースを積極的に検索する。 BIRDデータセット上で10個のテキスト・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・ザ』の性能評価は,テストベース手法が生成したクエリとグランド・トゥルースの違いを見落としていることを示唆している。
参考スコア（独自算出の注目度）: 9.733987594033907
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Community-driven Text-to-SQL evaluation platforms play a pivotal role in tracking the state of the art of Text-to-SQL performance. The reliability of the evaluation process is critical for driving progress in the field. Current evaluation methods are largely test-based, which involves comparing the execution results of a generated SQL query and a human-labeled ground-truth on a static test database. Such an evaluation is optimistic, as two queries can coincidentally produce the same output on the test database while actually being different. In this work, we propose a new alternative evaluation pipeline, called SpotIt, where a formal bounded equivalence verification engine actively searches for a database that differentiates the generated and ground-truth SQL queries. We develop techniques to extend existing verifiers to support a richer SQL subset relevant to Text-to-SQL. A performance evaluation of ten Text-to-SQL methods on the high-profile BIRD dataset suggests that test-based methods can often overlook differences between the generated query and the ground-truth. Further analysis of the verification results reveals a more complex picture of the current Text-to-SQL evaluation.
Abstract（参考訳）: コミュニティ主導のText-to-SQL評価プラットフォームは、Text-to-SQLパフォーマンスの最先端を追跡する上で、重要な役割を果たす。評価プロセスの信頼性は、フィールドの進行を駆動するために重要である。現在の評価手法は主にテストベースで、生成したSQLクエリの実行結果と静的なテストデータベース上での人間ラベルの接地構造を比較する。このような評価は楽観的であり、2つのクエリが偶然にテストデータベース上で同じ出力を生成できるが、実際には異なる。本研究では,提案する新たな評価パイプラインであるSpotItを提案する。このパイプラインでは,正規の有界同値検証エンジンが,生成したSQLクエリと基幹SQLクエリを区別するデータベースを積極的に検索する。我々は、Text-to-SQLに関連するよりリッチなSQLサブセットをサポートするために、既存のバリデーションを拡張する技術を開発した。 BIRDデータセット上でのテキストからSQLまでの10つのメソッドのパフォーマンス評価では、テストベースのメソッドは、生成されたクエリと基底構造の違いをしばしば見落としてしまうことが示唆されている。検証結果のさらなる分析により、現在のText-to-SQL評価のより複雑な画像が明らかになった。

関連論文リスト

SQLord: A Robust Enterprise Text-to-SQL Solution via Reverse Data Generation and Workflow Decomposition [8.468281360094181]
オープンソースのデータセットでトレーニングされた既存のフレームワークは、複雑なビジネスロジックに苦労する。評価手法は、実際のシナリオでは不十分なアノテートされたデータ環境を必要とすることが多い。これらの課題に対処するエンタープライズレベルのNL2フレームワークであるSQLordを提案する。これは、世界最大のB2Beコマースプラットフォーム上で、複数のシナリオにまたがってうまく適用されている。
論文参考訳（メタデータ） (2025-07-14T08:16:55Z)
Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。 GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-02T17:21:51Z)
FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark [8.445403382578167]
本稿では,テキスト対技術システム評価の新しいアプローチであるFLEX(False-Lesscution Execution)を紹介する。我々の基準は、包括的文脈と洗練された基準で、人間専門家との合意を改善します。この研究は、テキスト・トゥ・テクニカル・システムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスの理解を再構築する可能性がある。
論文参考訳（メタデータ） (2024-09-24T01:40:50Z)
DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文参考訳（メタデータ） (2024-08-16T14:43:15Z)
SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。 Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。 emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文参考訳（メタデータ） (2023-11-06T05:24:06Z)
Evaluating Cross-Domain Text-to-SQL Models and Benchmarks [7.388002745070808]
テキスト・ツー・ベンチマークを研究し、これらのベンチマークの中で最高のパフォーマンスのモデルを再評価する。これらのベンチマークで完全な性能を達成することは、提供されたサンプルから導出できる複数の解釈のため不可能であることがわかった。 GPT4ベースのモデルは、人間の評価においてスパイダーベンチマークのゴールド標準基準クエリを上回る。
論文参考訳（メタデータ） (2023-10-27T23:36:14Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。 BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文参考訳（メタデータ） (2020-12-23T12:33:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。