論文の概要: NL2SQLBench: A Modular Benchmarking Framework for LLM-Enabled NL2SQL Solutions
- arxiv url: http://arxiv.org/abs/2604.16493v1
- Date: Mon, 13 Apr 2026 18:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.02749
- Title: NL2SQLBench: A Modular Benchmarking Framework for LLM-Enabled NL2SQL Solutions
- Title(参考訳): NL2SQLBench: LLM対応NL2SQLソリューションのためのモジュール型ベンチマークフレームワーク
- Authors: Shizheng Hou, Wenqi Pei, Nuo Chen, Quang-Trung Ta, Peng Lu, Beng Chin Ooi,
- Abstract要約: 大規模言語モデル(LLM)はNL2アルゴリズムを大幅に改善したが、その迅速な開発は体系的な評価よりも優れている。
統一可能なNL2アプローチのための最初のモジュール評価およびベンチマークフレームワークであるNL2Benchを紹介する。
評価の結果,既存のNL2法には大きなギャップがあり,精度の向上だけでなく,計算効率の低下も顕著であることがわかった。
- 参考スコア(独自算出の注目度): 16.53346245559808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language to SQL (NL2SQL) technology empowers non-expert users to query relational databases without requiring SQL expertise. While large language models (LLMs) have greatly improved NL2SQL algorithms, their rapid development outpaces systematic evaluation, leaving a critical gap in understanding their effectiveness, efficiency, and limitations. To this end, we present NL2SQLBench, the first modular evaluation and benchmarking framework for LLM-enabled NL2SQL approaches. Specifically, we dissect NL2SQL systems into three core modules: Schema Selection, Candidate Generation, and Query Revision. For each module, we comprehensively review existing strategies and propose novel fine-grained metrics that systematically quantify module-level effectiveness and efficiency. We further implement these metrics in a flexible multi-agent framework, allowing configurable benchmarking across diverse NL2SQL approaches. Leveraging NL2SQLBench, we rigorously evaluate ten representative open-source methods on two datasets, the BIRD development set and the ScienceBenchmark development set, using two LLMs, DeepSeek-V3 and GPT-4o mini. We systematically assess each approach across the three core modules and evaluate multiple critical performance dimensions. Our evaluation reveals significant gaps in existing NL2SQL methods, highlighting not only substantial room for accuracy improvements but also the significant computational inefficiency, which severely hampers real-world adoption. Furthermore, our analysis identifies critical shortcomings in current benchmark datasets and evaluation rules, emphasizing issues such as inaccurate gold SQL annotations and limitations in existing evaluation rules. By synthesizing these insights into a unified benchmarking, our study establishes a clear reference point for fair comparison and serves as essential guidance for future targeted innovation in NL2SQL technology.
- Abstract(参考訳): Natural Language to SQL (NL2SQL)技術は、専門家でないユーザがSQLの専門知識を必要とせずにリレーショナルデータベースをクエリできるようにする。
大きな言語モデル(LLM)はNL2SQLアルゴリズムを大幅に改善したが、その急速な開発は体系的な評価を上回り、その有効性、効率、限界を理解する上で重要なギャップを残している。
この目的のために,LLM対応NL2SQLアプローチのための最初のモジュラー評価およびベンチマークフレームワークであるNL2SQLBenchを紹介する。
具体的には,NL2SQLシステムを3つのコアモジュール – Schema Selection, Candidate Generation,Query Revision – に分割する。
各モジュールについて,既存の戦略を包括的にレビューし,モジュールレベルの有効性と効率を体系的に定量化する,新たなきめ細かいメトリクスを提案する。
さらに、これらのメトリクスを柔軟なマルチエージェントフレームワークで実装し、さまざまなNL2SQLアプローチで設定可能なベンチマークを可能にします。
NL2SQLBenchを活用することで,BIRD開発セットとScienceBenchmark開発セットの2つのデータセットに対して,DeepSeek-V3とGPT-4o miniの2つのLLMを用いて,10種類のオープンソースメソッドを厳格に評価する。
3つのコアモジュールにまたがる各アプローチを体系的に評価し、複数の重要なパフォーマンスの次元を評価する。
評価の結果,既存のNL2SQL手法には大きなギャップがあり,精度の向上だけでなく,計算の非効率性も著しく向上し,現実の応用を著しく損なうことがわかった。
さらに,本分析では,金のSQLアノテーションの不正確なアノテーションや既存の評価ルールの制限といった問題を強調することで,現在のベンチマークデータセットや評価ルールの重大な欠点を明らかにしている。
これらの知見を統一的なベンチマークに合成することにより、公正比較のための明確な基準点を確立し、NL2SQL技術における将来の目標とするイノベーションのための重要なガイダンスとなる。
関連論文リスト
- Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks [21.891522433628893]
大規模言語モデル(LLM)はText-to-(Text2)システムにますます力を入れている。
テストタイムのスケーリング戦略はLLMベースのソリューションでは有望だが、現実のアプリケーション、特に最新の推論モデルでは、その有効性は不確実である。
この作業は、Text2システムをデプロイする際の正確性、効率、複雑さの間の実践的なトレードオフに光を当てています。
論文 参考訳(メタデータ) (2025-10-13T01:29:54Z) - HES-SQL: Hybrid Reasoning for Efficient Text-to-SQL with Structural Skeleton Guidance [6.653834890554154]
HES-は、思考モード融合型教師あり微調整の統合により、テキストからレイテンシ生成を進化させる新しいハイブリッドトレーニングフレームワークである。
このフレームワークは、クエリの精度と実行効率を改善しながら、推論モードと非推論モードの切り替えを可能にする。
論文 参考訳(メタデータ) (2025-10-10T01:15:57Z) - LLM-Driven Data Generation and a Novel Soft Metric for Evaluating Text-to-SQL in Aviation MRO [0.6374763930914525]
そこで本研究では,F1スコアベースの'ソフト'メトリクスを新たに導入し,実測値と実測値の重なりを定量化する。
我々は,MROデータベース上での実証的な評価を通じて,我々の貢献を実証する。
論文 参考訳(メタデータ) (2025-06-11T04:04:13Z) - Effectiveness of Prompt Optimization in NL2SQL Systems [11.173297717087713]
生産シナリオは高精度で高性能なNL2システムを必要とする。
このようなシナリオでは、クエリログ、ターゲットデータベース、実行レイテンシの複雑さをキャプチャする静的な例のセットを慎重に選択することは、類似性のみに基づく例の選択よりも重要な役割を担います。
論文 参考訳(メタデータ) (2025-05-26T23:54:36Z) - From Natural Language to SQL: Review of LLM-based Text-to-SQL Systems [1.1060425537315088]
本調査は,LLMに基づくテキスト・ツー・システムの進化に関する総合的研究である。
ベンチマーク、評価方法、評価指標について議論する。
LLMベースのテキスト・ツー・システムの改善に向けた,計算効率,モデルロバスト性,データプライバシといった重要な課題を強調した。
論文 参考訳(メタデータ) (2024-10-01T20:46:25Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。