論文の概要: ESM+: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models
- arxiv url: http://arxiv.org/abs/2407.07313v1
- Date: Wed, 10 Jul 2024 02:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-11 18:11:16.244986
- Title: ESM+: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models
- Title(参考訳): ESM+:大規模言語モデルの時代におけるテキスト-SQL評価の展望
- Authors: Benjamin Ascoli, Ram Kandikonda, Jinho D. Choi,
- Abstract要約: テストスイート実行精度(EXE)と実行セットマッチング精度(ESM)の2つの主要な指標を分析し、このタスクの堅牢性を調べ、欠点に対処する。
以上の結果から,EXE と ESM の偽陽性率は 11.3% と 13.9% であり, ESM+ はそれぞれ 0.1% と 2.6% であることがわかった。
- 参考スコア(独自算出の注目度): 8.618945530676614
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The task of Text-to-SQL enables anyone to retrieve information from SQL databases using natural language. Despite several challenges, recent models have made remarkable advancements in this task using large language models (LLMs). Interestingly, we find that LLM-based models without fine-tuning exhibit distinct natures compared to their fine-tuned counterparts, leading to inadequacies in current evaluation metrics to accurately convey their performance. Thus, we analyze the two primary metrics, Test Suite Execution Accuracy (EXE) and Exact Set Matching Accuracy (ESM), to examine their robustness for this task and address shortcomings. We compare the performance of 9 LLM-based models using EXE, the original ESM, and our improved ESM (called ESM+). Our results show that EXE and ESM have high false positive and negative rates of 11.3% and 13.9%, while ESM+ gives those of 0.1% and 2.6% respectively, providing a significantly more stable evaluation. We release the ESM+ script as open-source for the community to contribute, while enjoying a more reliable assessment of Text-to-SQL.
- Abstract(参考訳): Text-to-SQLのタスクにより、誰でも自然言語を使ってSQLデータベースから情報を検索できる。
いくつかの課題にもかかわらず、近年のモデルは、大きな言語モデル(LLM)を使用して、このタスクにおいて顕著な進歩を遂げている。
興味深いことに, 微調整のないLCMモデルでは, 微調整したモデルと比較すると, 異なる特性を示すことが判明した。
そこで,テストスイート実行精度 (EXE) と実行セットマッチング精度 (ESM) の2つの主要な指標を分析し,その頑健さを検証し,問題点に対処する。
従来のESMであるEXEと改良ESM(ESM+)を用いて,9LLMモデルの性能を比較した。
以上の結果から,EXE と ESM の偽陽性率は 11.3% と 13.9% であり,ESM+ はそれぞれ 0.1% と 2.6% であり,より安定した評価が得られた。
ESM+スクリプトをコミュニティがコントリビュートするためのオープンソースとしてリリースし、Text-to-SQLをより信頼性の高い評価を享受しています。
関連論文リスト
- Fact-Consistency Evaluation of Text-to-SQL Generation for Business Intelligence Using Exaone 3.5 [0.0]
大規模言語モデル(LLM)は、テキスト・ツー・ジェネレーションによる構造化データクエリーのための自然言語インタフェースの実現を約束している。
本稿では,Exaone 3.5 を用いて LLM 生成したsql 出力の意味的精度を評価するためのFact-Consistency Evaluation Framework を提案する。
本稿では,LG Electronicsの内部BigQuery環境における実際の販売データから抽出した219の自然言語ビジネス質問からなるドメイン固有ベンチマークを構築した。
我々は,応答精度,実行成功率,意味的誤り率,非応答率を用いてモデル性能を評価する。
論文 参考訳(メタデータ) (2025-04-30T14:42:18Z) - ExCoT: Optimizing Reasoning for Text-to-SQL with Execution Feedback [49.21833666405111]
大規模言語モデル(LLM)は、多くの推論タスクにおいて優れているが、Chain-of-Thought(CoT)推論を活用する能力はいまだに未定である。
我々は,オープンソース LLM を反復的に最適化する新しいフレームワークである ExCoT を提案する。
論文 参考訳(メタデータ) (2025-03-25T18:17:36Z) - SQLCritic: Correcting Text-to-SQL Generation via Clause-wise Critic [0.8098097078441623]
本稿では、構造化された実行フィードバックと、詳細な解釈可能な批評を提供する訓練された批評家エージェントを組み合わせる新しいアプローチを提案する。
この方法は、構文的誤りと意味的誤りの両方を効果的に識別し、修正し、精度と解釈可能性を高める。
論文 参考訳(メタデータ) (2025-03-11T02:52:39Z) - OpenSearch-SQL: Enhancing Text-to-SQL with Dynamic Few-shot and Consistency Alignment [6.2089733671434875]
我々は,テキストからエージェントまでのタスクを,整合性アライメント機構に基づくアライメントモジュールとともに,前処理,抽出,生成,リファインメントの4つの主要なモジュールに分割するOpenSearch-を提案する。
これらの手法はテキスト・ツー・エージェント・タスクにおけるLLMの性能を大幅に向上させた。
実験の結果、OpenSearch-はBIRD開発セットで69.3%、テストセットで72.28%、報酬ベースの効率スコア(R-VES)で69.3で実行精度(EX)を達成した。
論文 参考訳(メタデータ) (2025-02-19T07:51:50Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark [8.445403382578167]
本稿では,テキスト対技術システム評価の新しいアプローチであるFLEX(False-Lesscution Execution)を紹介する。
我々の基準は、包括的文脈と洗練された基準で、人間専門家との合意を改善します。
この研究は、テキスト・トゥ・テクニカル・システムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスの理解を再構築する可能性がある。
論文 参考訳(メタデータ) (2024-09-24T01:40:50Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation [22.650575388026752]
大規模言語モデル(LLM)はNLP研究に革命をもたらした。
インコンテキスト学習は、自然言語生成の評価指標としての使用を可能にする。
我々は,機械翻訳(MT)と要約データセットに基づいて,オープンソースのLCMベースのメトリクスに対して,720以上のプロンプトテンプレートを評価した。
論文 参考訳(メタデータ) (2024-06-26T17:56:29Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with
Self-Correction [7.388002745070808]
本研究では、生成問題をサブプロブレムに分解し、それらのサブプロブレムの解を大規模言語モデルに供給する方法について検討する。
文脈内学習による我々のアプローチは、多くの微調整されたモデルを少なくとも5%上回っている。
論文 参考訳(メタデータ) (2023-04-21T15:02:18Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。