論文の概要: SQLyzr: A Comprehensive Benchmark and Evaluation Platform for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2604.21214v2
- Date: Mon, 27 Apr 2026 17:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.924809
- Title: SQLyzr: A Comprehensive Benchmark and Evaluation Platform for Text-to-SQL
- Title(参考訳): SQLyzr: テキストからSQLへの総合的なベンチマークと評価プラットフォーム
- Authors: Sepideh Abedini, M. Tamer Özsu,
- Abstract要約: SQLyzrは、テキスト・ツー・モデルのための総合的なベンチマークと評価プラットフォームである。
生成されたクエリの複数の側面をキャプチャする、さまざまな評価指標が組み込まれている。
きめ細かいクエリ分類、エラー解析、ワークロード拡張をサポートしており、ユーザーはより優れた診断とテキスト・ツー・グラフィカル・モデルを改善することができる。
- 参考スコア(独自算出の注目度): 6.156269073168807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL models have significantly improved with the adoption of Large Language Models (LLMs), leading to their increasing use in real-world applications. Although many benchmarks exist for evaluating the performance of text-to-SQL models, they often rely on a single aggregate score, lack evaluation under realistic settings, and provide limited insight into model behaviour across different query types. In this work, we present SQLyzr, a comprehensive benchmark and evaluation platform for text-to-SQL models. SQLyzr incorporates a diverse set of evaluation metrics that capture multiple aspects of generated queries, while enabling more realistic evaluation through workload alignment with real-world SQL usage patterns and database scaling. It further supports fine-grained query classification, error analysis, and workload augmentation, allowing users to better diagnose and improve text-to-SQL models. This demonstration showcases these capabilities through an interactive experience. Through SQLyzr's graphical interface, users can customize evaluation settings, analyze fine-grained reports, and explore additional features of the platform. We envision that SQLyzr facilitates the evaluation and iterative improvement of text-to-SQL models by addressing key limitations of existing benchmarks. The source code of SQLyzr is available at https://github.com/sepideh-abedini/SQLyzr.
- Abstract(参考訳): テキストからSQLへのモデルは、LLM(Large Language Models)の採用によって大幅に改善され、現実世界のアプリケーションでの利用が増加した。
テキスト-SQLモデルのパフォーマンスを評価するためのベンチマークは数多く存在するが、それらは単一の集計スコアに依存しており、現実的な設定下での評価を欠いている。
本稿では,テキストからSQLモデルへの総合的なベンチマークと評価プラットフォームであるSQLyzrを紹介する。
SQLyzrには、生成されたクエリの複数の側面をキャプチャするさまざまな評価指標が組み込まれており、実際のSQL使用パターンとデータベーススケーリングとのワークロードアライメントを通じて、より現実的な評価を可能にしている。
さらに、きめ細かいクエリ分類、エラー解析、ワークロード拡張をサポートしており、ユーザーはよりよく診断し、テキストからSQLモデルを改善することができる。
このデモでは、インタラクティブな体験を通じてこれらの機能を紹介します。
SQLyzrのグラフィカルインターフェースを通じて、ユーザーは評価設定をカスタマイズしたり、きめ細かいレポートを分析したり、プラットフォームの追加機能を探したりできる。
我々は、SQLyzrが既存のベンチマークの重要な制限に対処することで、テキストからSQLモデルへの評価と反復的な改善を促進することを想定している。
SQLyzrのソースコードはhttps://github.com/sepideh-abedini/SQLyzrで入手できる。
関連論文リスト
- Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL [50.84251174559123]
生成言語モデルの性能は、マルチターンテキストソースと同程度に拡張されない。
マルチターンテキスト・ソースにおけるスキーマとコンテキスト変化を追跡するために設計された二重抽出モジュールを用いた生成言語モデルを強化するトラック-を提案する。
Track-は、データセットでそれぞれ7.1%と9.55%のマルチターンインタラクションの実行精度を大幅に改善する。
論文 参考訳(メタデータ) (2026-03-06T07:57:06Z) - PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation [21.0303026118673]
本稿では CrOss-System SQL Translation のための実践的で現実的なベンチマック PARROT を紹介する。
PARROTは38のオープンソースベンチマークと実世界のビジネスサービスから598の翻訳ペアで構成されている。
28,003 の PARROT-Diverse や 5,306 のサンプルを持つ PARROT-Simple など,複数のベンチマーク版も提供しています。
論文 参考訳(メタデータ) (2025-09-27T14:41:13Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - Bertrand-DR: Improving Text-to-SQL using a Discriminative Re-ranker [1.049360126069332]
生成テキスト-リミモデルの性能向上を図るために,新しい離散型リランカを提案する。
テキスト・ト・リミモデルとリランカモデルの相対強度を最適性能として解析する。
本稿では,2つの最先端テキスト-リミモデルに適用することで,リランカの有効性を実証する。
論文 参考訳(メタデータ) (2020-02-03T04:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。