論文の概要: An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data
- arxiv url: http://arxiv.org/abs/2603.07841v1
- Date: Sun, 08 Mar 2026 23:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.320424
- Title: An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data
- Title(参考訳): 未知データと未ラベルデータに基づくText2SQLモデルの効率的かつ効果的な評価方法
- Authors: Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen,
- Abstract要約: 永続的なデプロイメントの課題は、確認済みの回答が得られない場合に、目に見えない、ラベルなしのデータセットで、新しくトレーニングされたText2システムを評価することだ。
この状況は、データベースの内容と構造が進化し、プライバシポリシーが手作業によるレビューを遅らせ、慎重に書かれたラベルはコストと時間を要するため、頻繁に発生する。
Fusionは、参照ラベルなしで精度を見積もる。
- 参考スコア(独自算出の注目度): 41.195911171639445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models has strengthened Text2SQL systems that translate natural language questions into database queries. A persistent deployment challenge is to assess a newly trained Text2SQL system on an unseen and unlabeled dataset when no verified answers are available. This situation arises frequently because database content and structure evolve, privacy policies slow manual review, and carefully written SQL labels are costly and time-consuming. Without timely evaluation, organizations cannot approve releases or detect failures early. FusionSQL addresses this gap by working with any Text2SQL models and estimating accuracy without reference labels, allowing teams to measure quality on unseen and unlabeled datasets. It analyzes patterns in the system's own outputs to characterize how the target dataset differs from the material used during training. FusionSQL supports pre-release checks, continuous monitoring of new databases, and detection of quality decline. Experiments across diverse application settings and question types show that FusionSQL closely follows actual accuracy and reliably signals emerging issues. Our code is available at https://github.com/phkhanhtrinh23/FusionSQL.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、自然言語の質問をデータベースクエリに変換するText2SQLシステムを強化している。
永続的なデプロイメントの課題は、検証済みの回答が得られない場合に、目に見えない、ラベルなしのデータセット上で、新たにトレーニングされたText2SQLシステムを評価することだ。
データベースの内容と構造が進化し、プライバシポリシが手作業によるレビューを遅くし、注意深く書かれたSQLラベルはコストと時間を要するため、この状況は頻繁に発生します。
タイムリーな評価がなければ、リリースを承認したり、失敗を早期に検出することはできない。
FusionSQLは、どのText2SQLモデルとも連携し、参照ラベルなしで精度を推定することで、このギャップに対処する。
システム自身の出力のパターンを分析して、トレーニング中に使用する材料とターゲットデータセットがどのように異なるかを特徴付ける。
FusionSQLは、プレリリースチェック、新しいデータベースの継続的監視、品質低下の検出をサポートする。
多様なアプリケーション設定と質問タイプにわたる実験は、FusionSQLが実際の正確性に密接に従い、出現する問題を確実に示していることを示している。
私たちのコードはhttps://github.com/phkhanhtrinh23/FusionSQLで利用可能です。
関連論文リスト
- GBV-SQL: Guided Generation and SQL2Text Back-Translation Validation for Multi-Agent Text2SQL [12.455525963127497]
GBV-は、SQL2Textのバックトランスレーションバリデーションによるガイドドジェネレーションを導入した、新しいマルチエージェントフレームワークである。
このメカニズムは特殊エージェントを使用して生成したsqlを自然言語に翻訳し、元の質問と論理的整合性を検証する。
我々は,「金のエラー」の形式的型付けを導入し,それらのモデル性能の曖昧さを実証する。
論文 参考訳(メタデータ) (2025-09-16T03:21:12Z) - Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。
Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。
Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文 参考訳(メタデータ) (2024-11-12T12:52:17Z) - TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring [11.78795632771211]
本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。
2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
論文 参考訳(メタデータ) (2024-03-23T16:12:52Z) - Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries [5.8226163227899645]
本論文は,テキスト・ツー・システムのデータモデルロバスト性について,実際に評価した最初の事例である。
サッカーDBはFIFAワールドカップ2022の文脈で9ヶ月にわたって展開されたシステムである。
データはすべて、システムにライブで質問された実際のユーザ質問に基づいています。これらの質問のサブセットを手動でラベル付けし、3つの異なるデータモデルに翻訳しました。
論文 参考訳(メタデータ) (2024-02-13T10:28:57Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。