論文の概要: Agent-Agnostic Evaluation of SQL Accuracy in Production Text-to-SQL Systems
- arxiv url: http://arxiv.org/abs/2604.28049v1
- Date: Thu, 30 Apr 2026 15:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.186086
- Title: Agent-Agnostic Evaluation of SQL Accuracy in Production Text-to-SQL Systems
- Title(参考訳): 生産用テキスト-SQLシステムにおけるSQL精度のエージェント非依存評価
- Authors: Taslim Jamal Arif, Kuldeep Singh,
- Abstract要約: 運用環境におけるテキストからネイティブ(T2native)評価は、既存のベンチマークが対処しない根本的な課題を生じさせる。
本稿では,自然言語入力のみで動作する生産評価システムSTEFを提案する。
STEFは、フィルタアライメント、セマンティック検証、評価器の信頼性を含む合成計量を用いて、解釈可能な0から100の精度スコアを生成する。
- 参考スコア(独自算出の注目度): 2.051598597332424
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Text-to-SQL (T2SQL) evaluation in production environments poses fundamental challenges that existing benchmarks do not address. Current evaluation methodologies whether rule-based SQL matching or schema-dependent semantic parsers assume access to ground-truth queries and structured database schema, constraints that are rarely satisfied in real-world deployments. This disconnect leaves production T2SQL agents largely unevaluated beyond developer-time testing, creating silent quality degradation with no feedback mechanism for continuous improvement. We present STEF (Schema-agnostic Text-to-SQL Evaluation Framework), a production-native evaluation system that operates exclusively on natural language inputs the user question, an enriched reformulation, and the generated SQL without requiring database schema or reference queries. STEF extracts semantic specifications from both natural language and SQL representations, performs normalized feature alignment, and produces an interpretable 0 to 100 accuracy score via a composite metric that encompasses filter alignment, semantic verdict, and confidence of the evaluator. Key contributions include: enriched question quality validation as a first-class evaluation signal, configurable application-specific rule injection via prompt templating, and production-robust normalization handling GROUP BY tolerance, ORDER BY defaults, and LIMIT heuristics. Empirical results demonstrate that STEF enables continuous production monitoring and agent improvement feedback loops without schema dependency, making structured query evaluation viable at scale for the first time.
- Abstract(参考訳): 実運用環境でのテキストからSQL(T2SQL)評価は、既存のベンチマークが対処しない根本的な問題を引き起こす。
ルールベースのSQLマッチングやスキーマに依存したセマンティックパーザが、現実のデプロイメントにおいてほとんど満たされない制約である、基盤トラスクエリや構造化データベーススキーマへのアクセスを前提としているか、現在の評価手法である。
この切断により、T2SQLエージェントは開発者によるテスト以上の評価を受けておらず、継続的改善のためのフィードバックメカニズムなしでサイレントな品質劣化が生じる。
提案するSTEF(Schema-Agnostic Text-to-SQL Evaluation Framework)は,データベーススキーマや参照クエリを必要とせずに,ユーザ質問,強化された修正,生成したSQLを自然言語入力にのみ依存する実運用ネイティブ評価システムである。
STEFは、自然言語とSQL表現の両方からセマンティック仕様を抽出し、正規化された特徴アライメントを実行し、フィルタアライメント、セマンティック検証、評価器の信頼性を含む複合メトリックを介して、解釈可能な0から100の精度スコアを生成する。
第一級評価信号としての質問品質検証の強化、即時テンプレートによるアプリケーション固有のルールインジェクションの設定、GROUP BYトレランス、ORDER BYデフォルト、LIMITヒューリスティックスを扱うプロダクションロバスト正規化。
実証的な結果から,STEFはスキーマ依存のない継続的運用監視とエージェント改善フィードバックループを実現し,構造化クエリ評価を大規模に実現可能にする。
関連論文リスト
- PV-SQL: Synergizing Database Probing and Rule-based Verification for Text-to-SQL Agents [7.865833770467325]
テキスト・ツー・システムは、特に微妙な要求のある複雑なクエリにおいて、深いコンテキスト理解に苦しむことが多い。
本稿では,2つの相補的コンポーネント(プローブと検証)を通じて,これらの障害に対処するエージェントフレームワークであるPV-Verifyを紹介する。
Probeコンポーネントは、データベースから具体的なレコードを取得するための探索クエリを反復的に生成し、値形式、列のセマンティクス、テーブル間の関係の曖昧さを解消し、よりリッチなコンテキスト理解を構築する。
論文 参考訳(メタデータ) (2026-04-19T22:54:05Z) - Bridging Global Intent with Local Details: A Hierarchical Representation Approach for Semantic Validation in Text-to-SQL [30.78817492504152]
HEROは、グローバルな意図と局所的な詳細を統合する階層的な表現アプローチである。
我々はNested Message Passing Neural Network (NMPNN) を用いて、関係スキーマ誘導セマンティクスにおける固有情報をキャプチャする。
提案手法は既存の最先端手法よりも優れており,AUPRCの9.40%,AUROCの12.35%が意味的不整合を識別している。
きめ細かいセマンティックエラーを検出し、よりきめ細かいフィードバックで大きな言語モデルを提供し、最終的にはデータクエリプラットフォームの信頼性と解釈性を高めます。
論文 参考訳(メタデータ) (2025-12-28T02:25:33Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification [9.733987594033907]
本研究では,提案する新たな評価パイプラインであるSpotItを提案する。そこでは,正規の有界同値検証エンジンが,生成したクエリと接地トルースクエリを区別するデータベースを積極的に検索する。
BIRDデータセット上で10個のテキスト・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・トゥ・ザ』の性能評価は,テストベース手法が生成したクエリとグランド・トゥルースの違いを見落としていることを示唆している。
論文 参考訳(メタデータ) (2025-10-30T02:29:54Z) - The Interpretability Analysis of the Model Can Bring Improvements to the Text-to-SQL Task [3.890033714780255]
WHERE節のセマンティック解析のためのモデル解釈可能性解析と実行誘導戦略を統合する。
我々のモデルは、単一テーブルデータベースクエリタスクのエンブレマであるウィキデータセットを抜粋する。
基本的なデータベースクエリ処理の精度を高めるためにこの取り組みが、複雑なクエリ処理の研究に新たな視点を提供することを期待しています。
論文 参考訳(メタデータ) (2025-08-12T11:24:16Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。