論文の概要: SPENCE: A Syntactic Probe for Detecting Contamination in NL2SQL Benchmarks
- arxiv url: http://arxiv.org/abs/2604.17771v1
- Date: Mon, 20 Apr 2026 03:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.682208
- Title: SPENCE: A Syntactic Probe for Detecting Contamination in NL2SQL Benchmarks
- Title(参考訳): SPENCE: NL2SQLベンチマークで汚染を検出するための構文プローブ
- Authors: Mohammadtaher Safarzadeh, Hitesh Laxmichand Patel, Afshin Orojlooyjadid, Graham Horwood, Dan Roth,
- Abstract要約: 大規模言語モデル (LLM) は、自然言語 tosql (NL2) ベンチマークで高いパフォーマンスを達成した。
報告された精度は、ベンチマーククエリからの汚染や、トレーニング中に見られる構造的に類似したパターンによって膨らませられる可能性がある。
本研究では,このような汚染を検出・定量化するための統括型構文探索フレームワークであるSPENCEを紹介する。
- 参考スコア(独自算出の注目度): 40.31493151791439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved strong performance on natural language to SQL (NL2SQL) benchmarks, yet their reported accuracy may be inflated by contamination from benchmark queries or structurally similar patterns seen during training. We introduce SPENCE (Syntactic Probing and Evaluation of NL2SQL Contamination Effects), a controlled syntactic probing framework for detecting and quantifying such contamination. SPENCE systematically generates syntactic variants of test queries for four widely used NL2SQL datasets-Spider, SParC, CoSQL, and the newer BIRD benchmark. We use SPENCE to evaluate multiple high-capacity LLMs under execution-based scoring. For each model, we measure changes in execution accuracy across increasing levels of syntactic divergence and quantify rank sensitivity using Kendall's tau with bootstrap confidence intervals. By aligning these robustness trends with benchmark release dates, we observe a clear temporal gradient: older benchmarks such as Spider exhibit the strongest negative values and thus the highest likelihood of training leakage, whereas the more recent BIRD dataset shows minimal sensitivity and appears largely uncontaminated. Together, these findings highlight the importance of temporally contextualized, syntactic-probing evaluation for trustworthy NL2SQL benchmarking.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語からSQLへのベンチマーク(NL2SQL)において強力なパフォーマンスを達成したが、その報告された精度は、ベンチマーククエリからの汚染や、トレーニング中に見られる構造的に類似したパターンによって膨らませられる可能性がある。
本研究では,その汚染を検出・定量化するための統括型構文探索フレームワークであるSPENCE(Syntactic Probing and Evaluation of NL2SQL Contamination Effects)を紹介する。
SPENCEは、広く使われている4つのNL2SQLデータセット(Spider、SParC、CoSQL、およびより新しいBIRDベンチマーク)に対して、テストクエリの構文的変種を体系的に生成する。
我々はSPENCEを用いて複数の高容量LCMを実行ベーススコアリングで評価する。
各モデルについて,構文的ばらつきの増大による実行精度の変化を測定し,Kendall's tauとブートストラップ信頼区間を用いたランク感度の定量化を行う。
これらのロバストネストレンドをベンチマークリリース日と整合させることにより、明確な時間勾配を観察する。例えば、スパイダーのような古いベンチマークは、最大の負の値を示し、したがって、トレーニングリークの可能性が最も高いのに対して、最近のBIRDデータセットは、最小の感度を示し、ほとんど汚染されていないように見える。
これらの知見は,信頼性の高いNL2SQLベンチマークにおける時間的文脈的・統語的評価の重要性を強調した。
関連論文リスト
- PTEB: Towards Robust Text Embedding Evaluation via Stochastic Paraphrasing at Evaluation Time with LLMs [0.21485350418225244]
評価時に意味的パラフレーズを生成し,複数の実行で結果を集約する動的プロトコルであるParaphrasing Text Embedding Benchmark (PTEB) を導入する。
文エンコーダの性能は意味論が固定されたままでもトークン空間の変化に敏感であるという仮説を検証する。
結果は複数の実行に対して統計的に堅牢であり、実験を10言語をカバーする3つのデータセットに拡張しました。
論文 参考訳(メタデータ) (2025-10-08T07:37:19Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Evaluating Cross-Domain Text-to-SQL Models and Benchmarks [7.388002745070808]
テキスト・ツー・ベンチマークを研究し、これらのベンチマークの中で最高のパフォーマンスのモデルを再評価する。
これらのベンチマークで完全な性能を達成することは、提供されたサンプルから導出できる複数の解釈のため不可能であることがわかった。
GPT4ベースのモデルは、人間の評価においてスパイダーベンチマークのゴールド標準基準クエリを上回る。
論文 参考訳(メタデータ) (2023-10-27T23:36:14Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。