論文の概要: Evaluating Cross-Domain Text-to-SQL Models and Benchmarks
- arxiv url: http://arxiv.org/abs/2310.18538v1
- Date: Fri, 27 Oct 2023 23:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:10:31.327932
- Title: Evaluating Cross-Domain Text-to-SQL Models and Benchmarks
- Title(参考訳): ドメイン間テキスト間SQLモデルとベンチマークの評価
- Authors: Mohammadreza Pourreza and Davood Rafiei
- Abstract要約: テキスト・ツー・ベンチマークを研究し、これらのベンチマークの中で最高のパフォーマンスのモデルを再評価する。
これらのベンチマークで完全な性能を達成することは、提供されたサンプルから導出できる複数の解釈のため不可能であることがわかった。
GPT4ベースのモデルは、人間の評価においてスパイダーベンチマークのゴールド標準基準クエリを上回る。
- 参考スコア(独自算出の注目度): 7.388002745070808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL benchmarks play a crucial role in evaluating the progress made in
the field and the ranking of different models. However, accurately matching a
model-generated SQL query to a reference SQL query in a benchmark fails for
various reasons, such as underspecified natural language queries, inherent
assumptions in both model-generated and reference queries, and the
non-deterministic nature of SQL output under certain conditions. In this paper,
we conduct an extensive study of several prominent cross-domain text-to-SQL
benchmarks and re-evaluate some of the top-performing models within these
benchmarks, by both manually evaluating the SQL queries and rewriting them in
equivalent expressions. Our evaluation reveals that attaining a perfect
performance on these benchmarks is unfeasible due to the multiple
interpretations that can be derived from the provided samples. Furthermore, we
find that the true performance of the models is underestimated and their
relative performance changes after a re-evaluation. Most notably, our
evaluation reveals a surprising discovery: a recent GPT4-based model surpasses
the gold standard reference queries in the Spider benchmark in our human
evaluation. This finding highlights the importance of interpreting benchmark
evaluations cautiously, while also acknowledging the critical role of
additional independent evaluations in driving advancements in the field.
- Abstract(参考訳): テキストからSQLへのベンチマークは、フィールドにおける進歩と異なるモデルのランキングを評価する上で重要な役割を果たす。
しかし、ベンチマークでモデル生成のSQLクエリと参照SQLクエリを正確に一致させることは、不特定な自然言語クエリ、モデル生成と参照クエリの両方に固有の仮定、特定の条件下でのSQL出力の非決定論的性質など、様々な理由で失敗する。
本稿では、SQLクエリを手動で評価し、同等の式で書き換えることにより、いくつかの顕著なクロスドメインテキスト-SQLベンチマークについて広範な研究を行い、これらのベンチマークの中で最高のパフォーマンスモデルを再評価する。
評価の結果,得られたサンプルから得られる複数の解釈により,これらのベンチマークで完全な性能を達成することは不可能であることが判明した。
さらに,モデルの真の性能は過小評価され,再評価後の相対的な性能変化が確認された。
GPT4ベースの最近のモデルでは、人間の評価においてスパイダーベンチマークのゴールド標準基準クエリを超えています。
この発見は、ベンチマーク評価を慎重に解釈することの重要性を強調し、また、分野の進歩を推進する上で追加の独立した評価が重要な役割を担っていることも認めている。
関連論文リスト
- Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。
提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。
その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文 参考訳(メタデータ) (2024-11-11T18:58:38Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark [8.445403382578167]
本稿では,テキスト対技術システム評価の新しいアプローチであるFLEX(False-Lesscution Execution)を紹介する。
我々の基準は、包括的文脈と洗練された基準で、人間専門家との合意を改善します。
この研究は、テキスト・トゥ・テクニカル・システムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスの理解を再構築する可能性がある。
論文 参考訳(メタデータ) (2024-09-24T01:40:50Z) - Evaluating LLMs for Text-to-SQL Generation With Complex SQL Workload [1.2738020945091273]
TPC-DSクエリは、他の2つのベンチマークと比較すると、構造的な複雑さがかなり高い。
現在の最先端の生成AIモデルは、正確な意思決定クエリの生成に不足していることを示している。
その結果、実際の実世界のアプリケーションでは、生成したクエリの精度が不十分であることが判明した。
論文 参考訳(メタデータ) (2024-07-28T15:53:05Z) - Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks [2.1899189033259305]
調査コミュニティは、しばしばモデルの性能を評価するために、ベンチマークの試験プロンプト全体にわたるモデルの平均パフォーマンスに依存します。
これは、ベンチマーク内のテストプロンプトが実世界の関心の分布からランダムなサンプルを表すという仮定と一致している。
その結果,(1)テストプロンプト間のモデル性能の相関は非ランダムであり,(2)テストプロンプト間の相関を考慮すれば,主要なベンチマーク上でモデルランキングを変更でき,(3)セマンティックな類似性や共通LLM障害点を含む説明的要因が得られた。
論文 参考訳(メタデータ) (2024-04-25T18:35:54Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - EvalLM: Interactive Evaluation of Large Language Model Prompts on
User-Defined Criteria [43.944632774725484]
本稿では,ユーザ定義基準に基づいて複数の出力を評価することで,プロンプトを反復的に精錬するインタラクティブシステムであるEvalLMを提案する。
自然言語の基準を記述することで、ユーザはシステムのLCMベースの評価器を使って、どのプロンプトがエキサイティングか、失敗かを概観することができる。
比較研究では、EvalLMは手動による評価と比較して、参加者がより多様な基準を策定し、アウトプットの2倍を検査し、59%のリビジョンで満足なプロンプトに達するのに役立った。
論文 参考訳(メタデータ) (2023-09-24T13:19:38Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。