論文の概要: ESM+: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models
- arxiv url: http://arxiv.org/abs/2407.07313v1
- Date: Wed, 10 Jul 2024 02:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:11:16.244986
- Title: ESM+: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models
- Title(参考訳): ESM+:大規模言語モデルの時代におけるテキスト-SQL評価の展望
- Authors: Benjamin Ascoli, Ram Kandikonda, Jinho D. Choi,
- Abstract要約: テストスイート実行精度(EXE)と実行セットマッチング精度(ESM)の2つの主要な指標を分析し、このタスクの堅牢性を調べ、欠点に対処する。
以上の結果から,EXE と ESM の偽陽性率は 11.3% と 13.9% であり, ESM+ はそれぞれ 0.1% と 2.6% であることがわかった。
- 参考スコア(独自算出の注目度): 8.618945530676614
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The task of Text-to-SQL enables anyone to retrieve information from SQL databases using natural language. Despite several challenges, recent models have made remarkable advancements in this task using large language models (LLMs). Interestingly, we find that LLM-based models without fine-tuning exhibit distinct natures compared to their fine-tuned counterparts, leading to inadequacies in current evaluation metrics to accurately convey their performance. Thus, we analyze the two primary metrics, Test Suite Execution Accuracy (EXE) and Exact Set Matching Accuracy (ESM), to examine their robustness for this task and address shortcomings. We compare the performance of 9 LLM-based models using EXE, the original ESM, and our improved ESM (called ESM+). Our results show that EXE and ESM have high false positive and negative rates of 11.3% and 13.9%, while ESM+ gives those of 0.1% and 2.6% respectively, providing a significantly more stable evaluation. We release the ESM+ script as open-source for the community to contribute, while enjoying a more reliable assessment of Text-to-SQL.
- Abstract(参考訳): Text-to-SQLのタスクにより、誰でも自然言語を使ってSQLデータベースから情報を検索できる。
いくつかの課題にもかかわらず、近年のモデルは、大きな言語モデル(LLM)を使用して、このタスクにおいて顕著な進歩を遂げている。
興味深いことに, 微調整のないLCMモデルでは, 微調整したモデルと比較すると, 異なる特性を示すことが判明した。
そこで,テストスイート実行精度 (EXE) と実行セットマッチング精度 (ESM) の2つの主要な指標を分析し,その頑健さを検証し,問題点に対処する。
従来のESMであるEXEと改良ESM(ESM+)を用いて,9LLMモデルの性能を比較した。
以上の結果から,EXE と ESM の偽陽性率は 11.3% と 13.9% であり,ESM+ はそれぞれ 0.1% と 2.6% であり,より安定した評価が得られた。
ESM+スクリプトをコミュニティがコントリビュートするためのオープンソースとしてリリースし、Text-to-SQLをより信頼性の高い評価を享受しています。
関連論文リスト
- Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark [8.445403382578167]
本稿では,テキスト対技術システム評価の新しいアプローチであるFLEX(False-Lesscution Execution)を紹介する。
我々の基準は、包括的文脈と洗練された基準で、人間専門家との合意を改善します。
この研究は、テキスト・トゥ・テクニカル・システムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスの理解を再構築する可能性がある。
論文 参考訳(メタデータ) (2024-09-24T01:40:50Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation [22.650575388026752]
大規模言語モデル(LLM)はNLP研究に革命をもたらした。
インコンテキスト学習は、自然言語生成の評価指標としての使用を可能にする。
我々は,機械翻訳(MT)と要約データセットに基づいて,オープンソースのLCMベースのメトリクスに対して,720以上のプロンプトテンプレートを評価した。
論文 参考訳(メタデータ) (2024-06-26T17:56:29Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with
Self-Correction [7.388002745070808]
本研究では、生成問題をサブプロブレムに分解し、それらのサブプロブレムの解を大規模言語モデルに供給する方法について検討する。
文脈内学習による我々のアプローチは、多くの微調整されたモデルを少なくとも5%上回っている。
論文 参考訳(メタデータ) (2023-04-21T15:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。