論文の概要: SpotIt+: Verification-based Text-to-SQL Evaluation with Database Constraints
- arxiv url: http://arxiv.org/abs/2603.04334v1
- Date: Wed, 04 Mar 2026 17:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.436984
- Title: SpotIt+: Verification-based Text-to-SQL Evaluation with Database Constraints
- Title(参考訳): SpotIt+: データベース制約による検証ベースのテキスト-SQL評価
- Authors: Rocky Klopfenstein, Yang He, Andrew Tremante, Yuepeng Wang, Nina Narodytska, Haoze Wu,
- Abstract要約: SpotIt+は、有界同値検証による音声合成システムの評価ツールである。
本稿では,ルールベース仕様マイニングとLLMに基づく検証を組み合わせた制約マイニングパイプラインを提案する。
BIRDデータセットの実験結果は、マイニングされた制約により、SpotIt+はより現実的な差別化データベースを生成することができることを示している。
- 参考スコア(独自算出の注目度): 9.733987594033907
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present SpotIt+, an open-source tool for evaluating Text-to-SQL systems via bounded equivalence verification. Given a generated SQL query and the ground truth, SpotIt+ actively searches for database instances that differentiate the two queries. To ensure that the generated counterexamples reflect practically relevant discrepancies, we introduce a constraint-mining pipeline that combines rule-based specification mining over example databases with LLM-based validation. Experimental results on the BIRD dataset show that the mined constraints enable SpotIt+ to generate more realistic differentiating databases, while preserving its ability to efficiently uncover numerous discrepancies between generated and gold SQL queries that are missed by standard test-based evaluation.
- Abstract(参考訳): 本研究では,有界同値検証によるテキスト・トゥ・SQLシステムの評価を行うオープンソースツールであるSpotIt+を提案する。
生成されたSQLクエリと基礎的な真実から、SpotIt+は2つのクエリを区別するデータベースインスタンスを積極的に検索する。
生成した反例が事実上の相違点を反映することを保証するため,ルールベース仕様マイニングとLLMに基づく検証を併用した制約マイニングパイプラインを導入する。
BIRDデータセットの実験結果によると、マイニングされた制約により、SpotIt+はより現実的な差別化データベースを生成でき、また、標準的なテストベース評価で欠落した生成されたSQLクエリと金のSQLクエリの多くの相違を効率的に発見する能力を保持することができる。
関連論文リスト
- ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement [57.98138819417949]
テキスト・ツー・クエリを明示的にモデル化するフレームワークであるErrorLLMを提案する。
ErrorLLMは、バックボーンの初期生成よりも大幅に改善されていることを示す。
ErrorLLMは、精錬効率を維持しつつ、高い検出F1スコアで両面に対処する。
論文 参考訳(メタデータ) (2026-03-04T05:27:20Z) - APEX-SQL: Talking to the data via Agentic Exploration for Text-to-SQL [39.76924093980244]
APEX-動詞化は、パラダイムを受動的翻訳からエージェント探索に移行するフレームワークである。
提案フレームワークでは,実データにおける基底モデル推論に仮説検証ループを用いる。
論文 参考訳(メタデータ) (2026-02-11T07:50:47Z) - Companion Agents: A Table-Information Mining Paradigm for Text-to-SQL [8.159121916366727]
BIRDのような大規模テキスト・ツー・キュレートのベンチマークは通常、利用可能な外部知識だけでなく、完全で正確なデータベースアノテーションを前提としている。
このミスマッチはドメイン・オブ・ザ・ドメイン・テキスト・トゥ・アーティファクトシステムの現実的な適用性を著しく制限する。
本稿では,関係データベースに内在する固有できめ細かな情報を活用するデータベース中心の手法を提案する。
論文 参考訳(メタデータ) (2025-12-17T07:11:55Z) - FloodSQL-Bench: A Retrieval-Augmented Benchmark for Geospatially-Grounded Text-to-SQL [4.973502845481286]
FLOOD-BENCHは、キーベース、空間、ハイブリッド結合を通じて異種データセットを統合する、洪水管理ドメインのベンチマークである。
このベンチマークは、ソーシャル、インフラ、およびハザードデータレイヤを組み合わせることで、現実的な洪水関連情報をキャプチャする。
論文 参考訳(メタデータ) (2025-12-12T23:25:00Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification [9.733987594033907]
本研究では,提案する新たな評価パイプラインであるSpotItを提案する。そこでは,正規の有界同値検証エンジンが,生成したクエリと接地トルースクエリを区別するデータベースを積極的に検索する。
BIRDデータセット上で10個のテキスト・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・ザ』の性能評価は,テストベース手法が生成したクエリとグランド・トゥルースの違いを見落としていることを示唆している。
論文 参考訳(メタデータ) (2025-10-30T02:29:54Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios [28.55596803781757]
実際のシナリオでは、データベースのミスマッチが一般的です。
我々は,現実世界のシナリオで発生する条件ミスマッチ問題を反映した新しいデータセットであるSpider-Mismatchを紹介する。
提案手法は,数ショット設定で,スパイダーとスパイダー・リアリスティックのデータセットの平均値に対して高い性能を達成する。
論文 参考訳(メタデータ) (2024-08-30T03:38:37Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。