論文の概要: PolySQL: Scaling Text-to-SQL Evaluation Across SQL Dialects via Automated Backend Isomorphism
- arxiv url: http://arxiv.org/abs/2605.07796v1
- Date: Fri, 08 May 2026 14:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.116268
- Title: PolySQL: Scaling Text-to-SQL Evaluation Across SQL Dialects via Automated Backend Isomorphism
- Title(参考訳): PolySQL: 自動バックエンド同型によるSQLダイアレクト間のテキスト-SQL評価のスケーリング
- Authors: Yotam Perlitz, Elad Venezian, Corentin Royer, Francesco Fusco, Andrea Giovannini,
- Abstract要約: Polylectは、正規化の実行結果を比較することで、クエリのトランスパイルを不要にする、新しいデュアルエグゼバスト方式である。
本研究により,他の方言からの平均精度が10.1%低下し,重要な方言難易度階層が同定された。
- 参考スコア(独自算出の注目度): 5.75736217540603
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: SQL dialects vary in syntax, types, and functions across database engines. Text-to-SQL benchmarks, however, predominantly support only SQLite. This creates a critical evaluation gap: cross-dialect evaluation reveals weak per-query agreement (Cohen's ), showing that SQLite performance is an unreliable proxy for other dialects. Yet such evaluation remains prohibitively difficult: existing approaches either require expensive manual query transpilation or rely on tools that often fail on complex SQL. To close this gap, we introduce PolySQL, a novel dual-execution method that eliminates the need for query transpilation by comparing normalized execution results. Notably, our approach achieves higher evaluation fidelity than query transpilation with 100% query coverage. PolySQL comprises three datasets, enabling the first large-scale cross-dialect study. Our study reveals a 10.1% average accuracy drop from SQLite to other dialects and identifies a significant dialect difficulty hierarchy. We find this degradation stems from logical rather than syntactic errors (61% vs. 8%). We release our framework code and leaderboard to enable rigorous dialect-robust evaluation.
- Abstract(参考訳): SQLの方言は、データベースエンジンの構文、型、関数によって異なる。
しかし、テキストからSQLへのベンチマークは、主にSQLiteのみをサポートする。
クロスダイアレクト評価はクエリ毎の弱い合意(Cohen's )を明らかにし、SQLiteのパフォーマンスが他の方言の信頼性の低いプロキシであることを示す。
既存のアプローチでは、高価な手動クエリのトランスパイルを必要とするか、複雑なSQLで失敗することが多いツールに依存している。
このギャップを埋めるために、正規化の実行結果を比較することでクエリのトランスパイルを不要にする新しい二重実行法であるPolySQLを導入する。
特に,本手法は,100%のクエリカバレッジを持つクエリのトランスパイレーションよりも高い評価精度を実現する。
PolySQLは3つのデータセットで構成されており、最初の大規模横断的な研究を可能にしている。
本研究により,SQLiteから他の方言への平均精度が10.1%低下し,重要な方言難易度階層が同定された。
この劣化は, 構文的誤差よりも論理的誤差(61% vs. 8%)に起因している。
我々は、厳格な方言・ロマンス評価を可能にするためのフレームワークコードとリーダーボードをリリースする。
関連論文リスト
- Dialect-Agnostic SQL Parsing via LLM-Based Segmentation [7.41731253317229]
本稿では,文法に基づく構文解析とLLMに基づくセグメンテーションを統合し,方言を頑健に解析する新しい問合せ書き換えフレームワークを提案する。
我々の中核となる考え方は、階層解析を逐次セグメンテーションタスクに分解することであり、LLMの強度とよりよく一致する。
独立した評価では、8つの方言で91.55%から100%のクエリを解析し、すべてのベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-17T06:18:37Z) - PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation [21.0303026118673]
本稿では CrOss-System SQL Translation のための実践的で現実的なベンチマック PARROT を紹介する。
PARROTは38のオープンソースベンチマークと実世界のビジネスサービスから598の翻訳ペアで構成されている。
28,003 の PARROT-Diverse や 5,306 のサンプルを持つ PARROT-Simple など,複数のベンチマーク版も提供しています。
論文 参考訳(メタデータ) (2025-09-27T14:41:13Z) - SQLens: An End-to-End Framework for Error Detection and Correction in Text-to-SQL [20.93676525997898]
テキスト・トゥ・ザ・ボックス・システムによって生成される大規模言語モデル(LLM)における意味的誤りの詳細な検出と修正のためのエンドツーエンドフレームワークを提案する。
提案手法は誤り検出のためのF1の25.78%の自己評価法よりも優れた性能を示し,アウト・オブ・ザ・ボックスシステムの実行精度を最大20%向上させる。
論文 参考訳(メタデータ) (2025-06-04T22:25:47Z) - ExeSQL: Self-Taught Text-to-SQL Models with Execution-Driven Bootstrapping for SQL Dialects [24.450818792474216]
この作業では、実行駆動のエージェントブートストラップを備えたテキストからガイダンスのフレームワークであるExeを紹介した。
Exeはテキストとガイダンスの学習における方言のギャップを埋め、それぞれ15.2%、10.38%、および4.49%のGPT-4o以降の平均的な改善を実現している。
論文 参考訳(メタデータ) (2025-05-22T19:13:34Z) - TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring [11.78795632771211]
本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。
2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
論文 参考訳(メタデータ) (2024-03-23T16:12:52Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。