論文の概要: TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring
- arxiv url: http://arxiv.org/abs/2403.15879v5
- Date: Thu, 20 Jun 2024 05:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 04:39:52.078959
- Title: TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring
- Title(参考訳): TrustSQL: ペナルティベースのスコーリングによるテキストとSQLの信頼性のベンチマーク
- Authors: Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi,
- Abstract要約: 本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。
2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
- 参考スコア(独自算出の注目度): 11.78795632771211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-SQL enables users to interact with databases using natural language, simplifying the retrieval and synthesis of information. Despite the remarkable success of large language models (LLMs) in translating natural language questions into SQL queries, widespread deployment remains limited due to two primary challenges. First, the effective use of text-to-SQL models depends on users' understanding of the model's capabilities-the scope of questions the model can correctly answer. Second, the absence of abstention mechanisms can lead to incorrect SQL generation going unnoticed, thereby undermining trust in the model's output. To enable wider deployment, it is crucial to address these challenges in model design and enhance model evaluation to build trust in the model's output. To this end, we introduce TrustSQL, a novel comprehensive benchmark designed to evaluate text-to-SQL reliability-defined as a model's ability to correctly handle any type of input question by generating correct SQL queries for feasible questions and abstaining from generating infeasible ones (e.g., due to schema incompatibility or functionalities beyond SQL). We evaluate existing methods using a novel penalty-based scoring metric with two modeling approaches: (1) pipeline-based methods combining SQL generators with infeasible question detectors and SQL error detectors for abstention; and (2) unified methods using a single model for the entire task. Our experimental results reveal that achieving high scores under severe penalties requires significant effort and provide a new perspective on developing text-to-SQL models for safer deployment. TrustSQL is available at https://github.com/glee4810/TrustSQL.
- Abstract(参考訳): Text-to-SQLは、自然言語を使ってデータベースと対話し、情報の検索と合成を簡単にする。
自然言語の質問をSQLクエリに変換する上で,大きな言語モデル(LLM)が著しく成功したにも関わらず,2つの大きな課題があるため,広範なデプロイメントは限定的だ。
第一に、テキストからSQLへのモデルの効果的な利用は、モデルの能力に対するユーザの理解、すなわちモデルが正しく答えられる質問の範囲に依存する。
第二に、控えめなメカニズムがないことは、誤ったSQL生成を気づかないままにし、それによってモデルの出力に対する信頼を損なう可能性がある。
より広範なデプロイメントを実現するためには、モデル設計におけるこれらの課題に対処し、モデル評価を強化し、モデルのアウトプットに対する信頼を構築することが不可欠である。
この目的のために、TrustSQLを紹介した。これは、テキストからSQLまでの信頼性が定義された新しい総合的なベンチマークで、実行不可能な質問に対して正しいSQLクエリを生成し、実行不可能な質問(例えば、スキーマ不互換性やSQL以外の機能のため)を生成することによって、任意のタイプの入力質問を正しく処理する能力として設計されている。
我々は,(1)SQLジェネレータと非現実的質問検出器とSQLエラー検出器を組み合わせたパイプライン方式と,(2)タスク全体に対する単一モデルを用いた統一手法の2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
我々の実験結果によると、厳しい罰則の下で高いスコアを達成するには多大な努力が必要であり、より安全なデプロイメントのためのテキスト-SQLモデルの開発に新たな視点を提供する。
TrustSQLはhttps://github.com/glee4810/TrustSQLで入手できる。
関連論文リスト
- Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems [7.613758211231583]
本研究は,テキスト生成モデルに基づくデータベーススキーマを抽出する。
データベース自体を知らずに様々なデータベース要素を探索するゼロ知識フレームワークを開発した。
論文 参考訳(メタデータ) (2024-06-20T17:54:33Z) - Natural language to SQL in low-code platforms [0.0]
自然言語(NL)クエリを記述可能なパイプラインを提案する。
OutSystemsユーザによって最も頻繁に実行されるクエリをカバーするデータを収集、ラベル付け、検証します。
パイプライン全体について説明します。フィードバックループによって,運用データの迅速な収集が可能になります。
論文 参考訳(メタデータ) (2023-08-29T11:59:02Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Error Detection for Text-to-SQL Semantic Parsing [18.068244400731366]
現代のテキスト・トゥ・セマンティクスは、しばしば過信であり、実際の使用のためにデプロイされた際の信頼性に疑問を呈する。
本稿では,テキスト間セマンティック解析のためのa-独立誤差検出モデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T04:44:22Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - Interactive Text-to-SQL Generation via Editable Step-by-Step
Explanations [31.3376894001311]
本稿では,ユーザがクエリのステップバイステップ説明を直接編集してエラーを修正する,新たなインタラクションメカニズムを提案する。
複数のデータセットに対する我々の実験は、24人の参加者を持つユーザとともに、我々のアプローチが複数のSOTAアプローチより優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-12T10:45:29Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。
提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文 参考訳(メタデータ) (2020-07-30T07:44:48Z) - Bertrand-DR: Improving Text-to-SQL using a Discriminative Re-ranker [1.049360126069332]
生成テキスト-リミモデルの性能向上を図るために,新しい離散型リランカを提案する。
テキスト・ト・リミモデルとリランカモデルの相対強度を最適性能として解析する。
本稿では,2つの最先端テキスト-リミモデルに適用することで,リランカの有効性を実証する。
論文 参考訳(メタデータ) (2020-02-03T04:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。