Fugu-MT 論文翻訳(概要): FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark

論文の概要: FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark

arxiv url: http://arxiv.org/abs/2409.19014v2
Date: Mon, 28 Oct 2024 11:11:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 04:50:50.932415
Title: FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark
Title（参考訳）: FLEX: 信頼性の高いテキストからSQLへのベンチマークのためのエキスパートレベルのFalse-Less実行メトリクス
Authors: Heegyu Kim, Taeyang Jeon, Seunghwan Choi, Seungtaek Choi, Hyunsouk Cho,
Abstract要約: 本稿では,大規模言語モデル(LLM)を用いたテキスト対レスシステムの評価手法を提案する。提案手法は, 人的専門家の判断と極めて高い一致を示し, コーエンのカッパを61から78.17に改善した。この研究は、テキスト・トゥ・レスシステムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスの理解を再構築する可能性がある。
参考スコア（独自算出の注目度）: 8.445403382578167
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Text-to-SQL technology has become crucial for translating natural language into SQL queries in various industries, enabling non-technical users to perform complex data operations. The need for accurate evaluation methods has increased as these systems have grown more sophisticated. However, we found that the Execution Accuracy (EX), the most promising evaluation metric, still shows a substantial portion of false positives and negatives compared to human evaluation. Thus, this paper introduces FLEX (False-Less EXecution), a novel approach to evaluating text-to-SQL systems using large language models (LLMs) to emulate human expert-level evaluation of SQL queries. Our method shows significantly higher agreement with human expert judgments, improving Cohen's kappa from 61 to 78.17. Re-evaluating top-performing models on the Spider and BIRD benchmarks using FLEX reveals substantial shifts in performance rankings, with an average performance decrease of 3.15 due to false positive corrections and an increase of 6.07 from addressing false negatives. This work contributes to a more accurate and nuanced evaluation of text-to-SQL systems, potentially reshaping our understanding of state-of-the-art performance in this field.
Abstract（参考訳）: テキストからSQLへの技術は、さまざまな業界で自然言語をSQLクエリに翻訳するために欠かせないものとなり、非技術者のユーザが複雑なデータ操作を実行できるようになった。これらのシステムがより洗練されていくにつれて、正確な評価方法の必要性が高まっている。しかし,最も有望な評価指標であるExecution Accuracy (EX) は,人間の評価と比較して,偽陽性と陰性のかなりの部分を示していることがわかった。そこで本研究では,大規模言語モデル(LLM)を用いてSQLクエリのエキスパートレベル評価をエミュレートする新たなアプローチであるFLEX(False-Less Execution)を提案する。提案手法は, 人的専門家の判断と極めて高い一致を示し, コーエンのカッパを61から78.17に改善した。 FLEXを用いたスパイダーとBIRDベンチマークの上位性能モデルの再評価では、偽陽性の修正により平均性能が3.15に低下し、偽陰性への対処から6.07に向上した。この研究は、テキスト・トゥ・SQLシステムのより正確でニュアンスな評価に寄与し、この分野における最先端のパフォーマンスに対する理解を再構築する可能性がある。

関連論文リスト

LLM-Driven Data Generation and a Novel Soft Metric for Evaluating Text-to-SQL in Aviation MRO [0.6374763930914525]
そこで本研究では,F1スコアベースの'ソフト'メトリクスを新たに導入し,実測値と実測値の重なりを定量化する。我々は,MROデータベース上での実証的な評価を通じて,我々の貢献を実証する。
論文参考訳（メタデータ） (2025-06-11T04:04:13Z)
RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文参考訳（メタデータ） (2025-06-02T03:07:08Z)
Arctic-Text2SQL-R1: Simple Rewards, Strong Reasoning in Text-to-SQL [35.21185734929167]
提案するArctic-Text2-R1は、RLフレームワークとモデルファミリで、正確で実行可能なsqlを生成するように設計されている。提案手法は、調整された中間監督と複雑な報酬形成を回避し、安定したトレーニングと最終課題との整合性を促進する。特に、私たちの7Bモデルは70Bクラスのシステムよりも優れており、フレームワークのスケーラビリティと効率性を強調しています。
論文参考訳（メタデータ） (2025-05-22T23:33:47Z)
Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。 Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。 Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文参考訳（メタデータ） (2024-11-12T12:52:17Z)
Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。 GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-02T17:21:51Z)
E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-Seekは、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインである。 E-Seekは、関連するデータベース項目(テーブル、列、値)と条件を直接質問とsql構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。総合的な評価は、E-Seekが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
論文参考訳（メタデータ） (2024-09-25T09:02:48Z)
ETM: Modern Insights into Perspective on Text-to-SQL Evaluation in the Age of Large Language Models [8.618945530676614]
Execution Accuracy (EXE) と Exact Set Matching Accuracy (ESM) は、パフォーマンスを誤って表現できる固有の制限に悩まされている。我々は,構文的要素と意味的要素の両方を用いてクエリを比較することで,これらの問題を緩和する新しい指標ETM(Enhanced Tree Matching)を導入する。 ETM と ESM は23.0% と 28.9% の偽陽性と負の比率を産出でき、EMM はそれぞれ 0.3% と 2.7% に減少する。
論文参考訳（メタデータ） (2024-07-10T02:20:19Z)
Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries [4.141402725050671]
本論文は,テキスト・ツー・システムのデータモデルロバスト性について,実際に評価した最初の事例である。サッカーDBはFIFAワールドカップ2022の文脈で9ヶ月にわたって展開されたシステムである。データはすべて、システムにライブで質問された実際のユーザ質問に基づいています。これらの質問のサブセットを手動でラベル付けし、3つの異なるデータモデルに翻訳しました。
論文参考訳（メタデータ） (2024-02-13T10:28:57Z)
Enhancing Text-to-SQL Translation for Financial System Design [5.248014305403357]
様々なNLPタスクの最先端技術を実現したLarge Language Models (LLMs) について検討する。本稿では,関係クエリ間の類似性を適切に測定する2つの新しい指標を提案する。
論文参考訳（メタデータ） (2023-12-22T14:34:19Z)
Reboost Large Language Model-based Text-to-SQL, Text-to-Python, and Text-to-Function -- with Real Applications in Traffic Domain [14.194710636073808]
これまでのSOTA(State-of-the-art)手法は、スパイダーデータセット上で顕著な実行精度を達成した。より適応的で汎用的なプロンプト手法を開発し、クエリの書き直しとsqlの高速化を行う。ビジネスデータセットの実行精度については,SOTA法が21.05,我々のアプローチが65.79であった。
論文参考訳（メタデータ） (2023-10-28T16:32:40Z)
Evaluating Cross-Domain Text-to-SQL Models and Benchmarks [7.388002745070808]
テキスト・ツー・ベンチマークを研究し、これらのベンチマークの中で最高のパフォーマンスのモデルを再評価する。これらのベンチマークで完全な性能を達成することは、提供されたサンプルから導出できる複数の解釈のため不可能であることがわかった。 GPT4ベースのモデルは、人間の評価においてスパイダーベンチマークのゴールド標準基準クエリを上回る。
論文参考訳（メタデータ） (2023-10-27T23:36:14Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文参考訳（メタデータ） (2023-05-04T19:02:29Z)
Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文参考訳（メタデータ） (2023-01-18T13:29:05Z)
"What Do You Mean by That?" A Parser-Independent Interactive Approach for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。 PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2020-11-09T02:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。