論文の概要: Evaluating NL2SQL via SQL2NL
- arxiv url: http://arxiv.org/abs/2509.04657v1
- Date: Thu, 04 Sep 2025 21:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.41015
- Title: Evaluating NL2SQL via SQL2NL
- Title(参考訳): SQL2NLによるNL2SQLの評価
- Authors: Mohammadtaher Safarzadeh, Afshin Oroojlooyjadid, Dan Roth,
- Abstract要約: 新しいフレームワークは意味論的に等価で語彙的に多様なクエリを生成する。
最先端のモデルは、標準ベンチマークが示すよりもはるかに脆弱だ。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust evaluation in the presence of linguistic variation is key to understanding the generalization capabilities of Natural Language to SQL (NL2SQL) models, yet existing benchmarks rarely address this factor in a systematic or controlled manner. We propose a novel schema-aligned paraphrasing framework that leverages SQL-to-NL (SQL2NL) to automatically generate semantically equivalent, lexically diverse queries while maintaining alignment with the original schema and intent. This enables the first targeted evaluation of NL2SQL robustness to linguistic variation in isolation-distinct from prior work that primarily investigates ambiguity or schema perturbations. Our analysis reveals that state-of-the-art models are far more brittle than standard benchmarks suggest. For example, LLaMa3.3-70B exhibits a 10.23% drop in execution accuracy (from 77.11% to 66.9%) on paraphrased Spider queries, while LLaMa3.1-8B suffers an even larger drop of nearly 20% (from 62.9% to 42.5%). Smaller models (e.g., GPT-4o mini) are disproportionately affected. We also find that robustness degradation varies significantly with query complexity, dataset, and domain -- highlighting the need for evaluation frameworks that explicitly measure linguistic generalization to ensure reliable performance in real-world settings.
- Abstract(参考訳): 言語的バリエーションの存在下でのロバストな評価は、自然言語からSQLへの一般化能力(NL2SQL)を理解する上で重要であるが、既存のベンチマークでは、この要因を体系的または制御された方法で扱うことはめったにない。
本稿では,SQL-to-NL(SQL2NL)を活用して,従来のスキーマとインテントとの整合性を維持しつつ,意味論的に等価で語彙的に多様なクエリを自動的に生成する新しいスキーマ整合型パラフレーズフレームワークを提案する。
これにより、あいまいさやスキーマの摂動を主に調査する以前の作業から、NL2SQLの言語的変動に対する最初の目標評価が可能になる。
我々の分析によると、最先端モデルは標準ベンチマークが示唆するよりもはるかに脆弱である。
例えば、LLaMa3.3-70Bはパラフレーズスパイダークエリで10.23%の精度(77.11%から66.9%)の低下を示し、LLaMa3.1-8Bはさらに20%近く(62.9%から42.5%)の低下を被っている。
より小さなモデル(例えば、GPT-4o mini)は不均等に影響を受ける。
また、ロバストネスの低下はクエリの複雑さ、データセット、ドメインによって大きく異なり、実際の環境での信頼性の高いパフォーマンスを保証するために言語一般化を明示的に測定する評価フレームワークの必要性を強調しています。
関連論文リスト
- RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - Grounding Natural Language to SQL Translation with Data-Based Self-Explanations [7.4643285253289475]
Cycleは、エンドツーエンドの翻訳モデルのために設計されたフレームワークで、自己評価を通じて最適な出力を自律的に生成する。
主な考え方は、データ基底のNL説明を自己提供のフィードバックとして導入し、そのフィードバックを使って翻訳の正確性を検証することである。
その結果、1) サイクルで導入されたフィードバックループは既存のモデルの性能を一貫して改善することができ、特にRESDにCycleを適用することで、検証セットで82.0%(+2.6%)、テストセットベンチマークで81.6%(+3.2%)の翻訳精度が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-05T09:44:53Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - ETM: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models [8.618945530676614]
Execution Accuracy (EXE) と Exact Set Matching Accuracy (ESM) は、パフォーマンスを誤って表現できる固有の制限に悩まされている。
我々は,構文的要素と意味的要素の両方を用いてクエリを比較することで,これらの問題を緩和する新しい指標ETM(Enhanced Tree Matching)を導入する。
ETM と ESM は23.0% と 28.9% の偽陽性と負の比率を産出でき、EMM はそれぞれ 0.3% と 2.7% に減少する。
論文 参考訳(メタデータ) (2024-07-10T02:20:19Z) - Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL
Robustness [115.66421993459663]
近年の研究では、テキスト・ツー・モデルはタスク固有の摂動に弱いことが示されている。
モデル診断のための包括的ロバスト性ベンチマークを提案する。
我々は、そのセット上の最先端モデルの診断研究を行う。
論文 参考訳(メタデータ) (2023-01-21T03:57:18Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。