論文の概要: Pervasive Annotation Errors Break Text-to-SQL Benchmarks and Leaderboards
- arxiv url: http://arxiv.org/abs/2601.08778v1
- Date: Tue, 13 Jan 2026 18:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.322389
- Title: Pervasive Annotation Errors Break Text-to-SQL Benchmarks and Leaderboards
- Title(参考訳): 広範囲なアノテーションエラーがテキストとSQLのベンチマークとリーダーボードを壊す
- Authors: Tengjun Jin, Yoojin Choi, Yuxuan Zhu, Daniel Kang,
- Abstract要約: BIRD Mini-Dev と Spider 2.0-Snow はそれぞれ 52.8% と 62.8% の誤差率を示す。
我々は、オリジナルのBIRD Devサブセットと修正されたBIRD Devサブセットの両方で、BIRDリーダーボードから16のオープンソースエージェントを再評価する。
これらの結果は、アノテーションエラーが報告された性能とランキングを著しく歪め、研究の方向性やデプロイメントの選択を誤解させる可能性があることを示している。
- 参考スコア(独自算出の注目度): 8.94428202485629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers have proposed numerous text-to-SQL techniques to streamline data analytics and accelerate the development of database-driven applications. To compare these techniques and select the best one for deployment, the community depends on public benchmarks and their leaderboards. Since these benchmarks heavily rely on human annotations during question construction and answer evaluation, the validity of the annotations is crucial. In this paper, we conduct an empirical study that (i) benchmarks annotation error rates for two widely used text-to-SQL benchmarks, BIRD and Spider 2.0-Snow, and (ii) corrects a subset of the BIRD development (Dev) set to measure the impact of annotation errors on text-to-SQL agent performance and leaderboard rankings. Through expert analysis, we show that BIRD Mini-Dev and Spider 2.0-Snow have error rates of 52.8% and 62.8%, respectively. We re-evaluate all 16 open-source agents from the BIRD leaderboard on both the original and the corrected BIRD Dev subsets. We show that performance changes range from -7% to 31% (in relative terms) and rank changes range from $-9$ to $+9$ positions. We further assess whether these impacts generalize to the full BIRD Dev set. We find that the rankings of agents on the uncorrected subset correlate strongly with those on the full Dev set (Spearman's $r_s$=0.85, $p$=3.26e-5), whereas they correlate weakly with those on the corrected subset (Spearman's $r_s$=0.32, $p$=0.23). These findings show that annotation errors can significantly distort reported performance and rankings, potentially misguiding research directions or deployment choices. Our code and data are available at https://github.com/uiuc-kang-lab/text_to_sql_benchmarks.
- Abstract(参考訳): 研究者は、データ分析を合理化し、データベース駆動アプリケーションの開発を加速するための、多くのテキストからSQL技術を提案している。
これらのテクニックを比較し、デプロイメントに最適なものを選択するには、コミュニティは公開ベンチマークとリーダボードに依存する。
これらのベンチマークは、質問作成と回答評価において人間のアノテーションに大きく依存しているため、アノテーションの有効性は不可欠である。
本稿では,実証的研究を行った。
i) BIRDとSpider 2.0-Snowという2つの広く使われているテキスト-SQLベンチマークのアノテーションエラー率
i) BIRD開発(Dev)セットのサブセットを修正し、アノテーションエラーがテキストからSQLエージェントのパフォーマンスやリーダーボードランキングに与える影響を計測する。
専門的な分析により、BIRD Mini-DevとSpider 2.0-Snowはそれぞれ52.8%と62.8%のエラー率を示す。
オリジナルと修正されたBIRD Devサブセットの両方で、BIRDリーダボードから16のオープンソースエージェントを再評価します。
性能変化は-7%から31%(相対的な意味で)で、ランク変更は-9$から$+9$のポジションです。
これらの影響が完全なBIRD Devセットに一般化するかどうかをさらに評価する。
修正されていない部分集合上のエージェントのランクは、完全なDev集合上のエージェント(Spearman's $r_s$=0.85, $p$=3.26e-5)と強く相関しているのに対し、修正された部分集合上のエージェントと弱相関している(Spearman's $r_s$=0.32, $p$=0.23)。
これらの結果は、アノテーションエラーが報告された性能とランキングを著しく歪め、研究の方向性やデプロイメントの選択を誤解させる可能性があることを示している。
私たちのコードとデータはhttps://github.com/uiuc-kang-lab/text_to_sql_benchmarks.comで公開されています。
関連論文リスト
- Evaluating NL2SQL via SQL2NL [45.88028371034407]
新しいフレームワークは意味論的に等価で語彙的に多様なクエリを生成する。
最先端のモデルは、標準ベンチマークが示すよりもはるかに脆弱だ。
論文 参考訳(メタデータ) (2025-09-04T21:03:59Z) - SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation [8.638974393417929]
State-of-the-the-art text-to-sql studyはBIRDデータセットに依存しており、証拠が質問と共に提供されると仮定している。
実世界のシナリオにおける性能向上と実用性向上のためのエビデンスを自動生成するSEEDを提案する。
論文 参考訳(メタデータ) (2025-06-09T04:44:31Z) - ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.21833666405111]
大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。
我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文 参考訳(メタデータ) (2025-03-25T18:17:36Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark [8.445403382578167]
本稿では,テキスト対技術システム評価の新しいアプローチであるFLEX(False-Lesscution Execution)を紹介する。
我々の基準は、包括的文脈と洗練された基準で、人間専門家との合意を改善します。
この研究は、テキスト・トゥ・テクニカル・システムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスの理解を再構築する可能性がある。
論文 参考訳(メタデータ) (2024-09-24T01:40:50Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。