論文の概要: Beyond Text-to-SQL: Can LLMs Really Debug Enterprise ETL SQL?
- arxiv url: http://arxiv.org/abs/2601.18119v1
- Date: Mon, 26 Jan 2026 04:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.666428
- Title: Beyond Text-to-SQL: Can LLMs Really Debug Enterprise ETL SQL?
- Title(参考訳): テキストからSQLまで: LLMは本当にエンタープライズETL SQLをデバッグできるのか?
- Authors: Jing Ye, Yiwen Duan, Yonghong Yu, Victor Ma, Yang Gao, Xing Chen,
- Abstract要約: エンタープライズレベルのSQL推論とデバッグのための最初のベンチマークであるOurBenchを紹介します。
OurBenchは469のOurBenchSynクエリと516のOurBenchSemクエリからなる。
最高のパフォーマンスモデルであるClaude-4-SonnetはOurBenchSynで36.6%、OurBenchSemで32.17%の精度しか達成していない。
- 参考スコア(独自算出の注目度): 9.11062231811843
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: SQL is central to enterprise data engineering, yet generating fully correct SQL code in a single attempt remains difficult, even for experienced developers and advanced text-to-SQL LLMs, often requiring multiple debugging iterations. We introduce OurBench, the first benchmark for enterprise-level SQL reasoning and debugging. Our benchmark is built on two key innovations: (1) an automated construction workflow that uses reverse engineering to systematically inject realistic bugs into large-scale SQL code, enabling scalable and diverse benchmark generation; and (2) an execution-free evaluation framework tailored to enterprise settings, providing fast, accurate, and resource-efficient assessment. OurBench comprises 469 OurBenchSyn queries featuring syntax errors with explicit error messages, and 516 OurBenchSem queries targeting semantic errors in which the code fails to meet user intent. The queries are highly complex, averaging over 140 lines and featuring deep and wide abstract syntax trees. Evaluation of nearly 30 LLMs reveals a substantial performance gap: the best-performing model, Claude-4-Sonnet, achieves only 36.46 percent accuracy on OurBenchSyn and 32.17 percent on OurBenchSem, while most models score below 20 percent. We further explore four solution strategies, identify key challenges, and outline promising directions for enterprise SQL debugging with LLMs.
- Abstract(参考訳): SQLはエンタープライズデータエンジニアリングの中心であるが、経験豊富な開発者や先進的なテキストからSQLへのLLMであっても、単一の試行で完全に正しいSQLコードを生成することは難しい。
エンタープライズレベルのSQL推論とデバッグのための最初のベンチマークであるOurBenchを紹介します。
当社のベンチマークは,(1)リバースエンジニアリングを用いて大規模SQLコードに現実的なバグを体系的に注入し,スケーラブルで多様なベンチマーク生成を可能にする自動構築ワークフロー,(2)エンタープライズ環境に適した実行自由評価フレームワーク,そして,高速で正確かつ資源効率の高い評価を提供する。
OurBenchは469のOurBenchSynクエリと516のOurBenchSemクエリで構成されており、コードがユーザの意図を満たさないセマンティックエラーをターゲットとしている。
クエリは非常に複雑で、平均140行を越え、深い抽象構文木を特徴とする。
最高性能のClaude-4-SonnetはOurBenchSynで36.66%、OurBenchSemで32.17%、ほとんどのモデルは20パーセント以下である。
さらに4つのソリューション戦略を探求し、主要な課題を特定し、LLMによるエンタープライズSQLデバッグの有望な方向性を概説する。
関連論文リスト
- SING-SQL: A Synthetic Data Generation Framework for In-Domain Text-to-SQL Translation [2.0799061948689306]
SING-aは、高品質で高カバレッジな合成テキストデータを生成するための、完全に自動化された2段階のフレームワークである。
SING-LMは、合成データに基づいて微調整されたコンパクト言語モデルのファミリーである。
論文 参考訳(メタデータ) (2025-09-30T02:14:49Z) - PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation [21.0303026118673]
本稿では CrOss-System SQL Translation のための実践的で現実的なベンチマック PARROT を紹介する。
PARROTは38のオープンソースベンチマークと実世界のビジネスサービスから598の翻訳ペアで構成されている。
28,003 の PARROT-Diverse や 5,306 のサンプルを持つ PARROT-Simple など,複数のベンチマーク版も提供しています。
論文 参考訳(メタデータ) (2025-09-27T14:41:13Z) - SQLens: An End-to-End Framework for Error Detection and Correction in Text-to-SQL [20.93676525997898]
テキスト・トゥ・ザ・ボックス・システムによって生成される大規模言語モデル(LLM)における意味的誤りの詳細な検出と修正のためのエンドツーエンドフレームワークを提案する。
提案手法は誤り検出のためのF1の25.78%の自己評価法よりも優れた性能を示し,アウト・オブ・ザ・ボックスシステムの実行精度を最大20%向上させる。
論文 参考訳(メタデータ) (2025-06-04T22:25:47Z) - Can the Rookies Cut the Tough Cookie? Exploring the Use of LLMs for SQL Equivalence Checking [15.42143912008553]
クエリ等価性チェックのためのSQLEquiQuestという,新しい,現実的で,十分に複雑なベンチマークを導入する。
我々は,様々なプロンプト戦略とテキスト内学習例を用いて,最先端のLLMを評価した。
解析の結果,LLMは等価性予測に強いバイアスを示し,非等価性対に対する性能は一貫して劣っていることがわかった。
論文 参考訳(メタデータ) (2024-12-07T06:50:12Z) - BEAVER: An Enterprise Benchmark for Text-to-SQL [5.984348784381797]
既存のテキスト・トゥ・ザ・シェルフのベンチマークは、主に人為的な質問対を持つWebテーブルから構築されている。
これは、実際のプライベートなエンタープライズデータウェアハウスからソースされた最初のエンタープライズ向けテキスト・トゥ・ザ・シェルフ・ベンチマークです。
論文 参考訳(メタデータ) (2024-09-03T16:37:45Z) - MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [47.120862170230566]
最近のText-to-Yourselfメソッドは通常、"巨大な"データベース上での大幅なパフォーマンス劣化に悩まされる。
我々は,新しいテキスト・ツー・ユー・セルフ LLM ベースのマルチエージェント協調フレームワーク MAC を紹介する。
我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。
次に、Code 7Bを活用することで、オープンソースの命令フォローモデルであるsql-Llamaを微調整し、GPT-4のように全てのタスクを達成します。
論文 参考訳(メタデータ) (2023-12-18T14:40:20Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。