論文の概要: Dialect-Agnostic SQL Parsing via LLM-Based Segmentation
- arxiv url: http://arxiv.org/abs/2603.16155v1
- Date: Tue, 17 Mar 2026 06:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.125464
- Title: Dialect-Agnostic SQL Parsing via LLM-Based Segmentation
- Title(参考訳): LLM-based Segmentationによる辞書に依存しないSQL解析
- Authors: Junwen An, Kabilan Mahathevan, Manuel Rigger,
- Abstract要約: 本稿では,文法に基づく構文解析とLLMに基づくセグメンテーションを統合し,方言を頑健に解析する新しい問合せ書き換えフレームワークを提案する。
我々の中核となる考え方は、階層解析を逐次セグメンテーションタスクに分解することであり、LLMの強度とよりよく一致する。
独立した評価では、8つの方言で91.55%から100%のクエリを解析し、すべてのベースラインを上回っている。
- 参考スコア(独自算出の注目度): 7.41731253317229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SQL is a widely adopted language for querying data, which has led to the development of various SQL analysis and rewriting tools. However, due to the diversity of SQL dialects, such tools often fail when encountering unrecognized dialect-specific syntax. While Large Language Models (LLMs) have shown promise in understanding SQL queries, their inherent limitations in handling hierarchical structures and hallucination risks limit their direct applicability in parsing. To address these limitations, we propose SQLFlex, a novel query rewriting framework that integrates grammar-based parsing with LLM-based segmentation to parse diverse SQL dialects robustly. Our core idea is to decompose hierarchical parsing to sequential segmentation tasks, which better aligns with the strength of LLMs and improves output reliability through validation checks. Specifically, SQLFlex uses clause-level segmentation and expression-level segmentation as two strategies that decompose elements on different levels of a query. We extensively evaluated SQLFlex on both real-world use cases and in a standalone evaluation. In SQL linting, SQLFlex outperforms SQLFluff in ANSI mode by 63.68% in F1 score while matching its dialect-specific mode performance. In test-case reduction, SQLFlex outperforms SQLess by up to 10 times in simplification rate. In the standalone evaluation, it parses 91.55% to 100% of queries across eight distinct dialects, outperforming all baseline parsers. We believe SQLFlex can serve as a foundation for many query analysis and rewriting use cases.
- Abstract(参考訳): SQLはデータクエリに広く採用されている言語であり、様々なSQL分析と書き換えツールの開発に繋がった。
しかし、SQL方言の多様性のため、認識されていない方言固有の構文に遭遇すると、そのようなツールは失敗することが多い。
大規模言語モデル(LLM)はSQLクエリの理解において有望であることを示しているが、階層構造や幻覚のリスクを扱う際の固有の制限は、解析における直接的な適用性を制限している。
これらの制約に対処するために,文法に基づく構文解析とLLMに基づくセグメンテーションを統合し,多様なSQL方言を堅牢に解析する新しいクエリ書き換えフレームワークであるSQLFlexを提案する。
我々の中核となる考え方は、階層的な構文解析を逐次セグメンテーションタスクに分解し、LCMの強度と整合性を高め、検証チェックによる出力信頼性を向上させることである。
具体的には、SQLFlexは、クエリの異なるレベルの要素を分解する2つの戦略として、節レベルのセグメンテーションと式レベルのセグメンテーションを使用する。
私たちはSQLFlexを実世界のユースケースとスタンドアロンのユースケースの両方で広範囲に評価しました。
SQLのリンティングでは、SQLFlexはANSIモードでSQLFluffを63.68%上回り、方言固有のモードのパフォーマンスにマッチする。
テストケースの削減において、SQLFlexはSQLessを最大10倍の単純化率で上回っている。
スタンドアロン評価では、8つの異なる方言で91.55%から100%のクエリを解析し、すべてのベースラインパーサーを上回っている。
SQLFlexは多くのクエリ分析やユースケースの書き直しの基盤として機能できると考えています。
関連論文リスト
- PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation [21.0303026118673]
本稿では CrOss-System SQL Translation のための実践的で現実的なベンチマック PARROT を紹介する。
PARROTは38のオープンソースベンチマークと実世界のビジネスサービスから598の翻訳ペアで構成されている。
28,003 の PARROT-Diverse や 5,306 のサンプルを持つ PARROT-Simple など,複数のベンチマーク版も提供しています。
論文 参考訳(メタデータ) (2025-09-27T14:41:13Z) - SQLens: An End-to-End Framework for Error Detection and Correction in Text-to-SQL [20.93676525997898]
テキスト・トゥ・ザ・ボックス・システムによって生成される大規模言語モデル(LLM)における意味的誤りの詳細な検出と修正のためのエンドツーエンドフレームワークを提案する。
提案手法は誤り検出のためのF1の25.78%の自己評価法よりも優れた性能を示し,アウト・オブ・ザ・ボックスシステムの実行精度を最大20%向上させる。
論文 参考訳(メタデータ) (2025-06-04T22:25:47Z) - ExeSQL: Self-Taught Text-to-SQL Models with Execution-Driven Bootstrapping for SQL Dialects [24.450818792474216]
この作業では、実行駆動のエージェントブートストラップを備えたテキストからガイダンスのフレームワークであるExeを紹介した。
Exeはテキストとガイダンスの学習における方言のギャップを埋め、それぞれ15.2%、10.38%、および4.49%のGPT-4o以降の平均的な改善を実現している。
論文 参考訳(メタデータ) (2025-05-22T19:13:34Z) - SQLfuse: Enhancing Text-to-SQL Performance through Comprehensive LLM Synergy [24.919119901664843]
本稿では,オープンソースのLarge Language Models(LLM)を,クエリの精度とユーザビリティを高めるための一連のツールに統合する,堅牢なシステムを提案する。
Ant GroupによるSpider Leaderboardとデプロイメントのリードパフォーマンスによって実証された。
論文 参考訳(メタデータ) (2024-07-19T06:01:57Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - Benchmarking and Improving Text-to-SQL Generation under Ambiguity [25.283118418288293]
我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストは語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる。
提案するLogicalBeamは,計画ベースのテンプレート生成と制約付きインフィルを併用して,sql論理空間をナビゲートする新しい復号アルゴリズムである。
論文 参考訳(メタデータ) (2023-10-20T17:00:53Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。