論文の概要: TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions
- arxiv url: http://arxiv.org/abs/2403.15879v2
- Date: Tue, 16 Apr 2024 15:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 22:26:44.301143
- Title: TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions
- Title(参考訳): TrustSQL: さまざまな疑問のあるテキストからSQLモデルに対する信頼性ベンチマーク
- Authors: Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi,
- Abstract要約: テキスト・ツー・アンサー・モデルの信頼性を評価するための新しいベンチマークであるTrustを導入する。
本課題に特化して設計された様々なモデリング手法について検討する。
- 参考スコア(独自算出の注目度): 11.78795632771211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have led to significant improvements in translating natural language questions into SQL queries. While achieving high accuracy in SQL generation is crucial, little is known about the extent to which these text-to-SQL models can reliably handle diverse types of questions encountered during real-world deployment, including unanswerable ones. To explore this aspect, we introduce TrustSQL, a new benchmark designed to assess the reliability of text-to-SQL models in both single-database and cross-database settings. TrustSQL requires models to provide one of two outputs: 1) an SQL prediction or 2) abstention from making an SQL prediction, either due to potential errors in the generated SQL or when faced with unanswerable questions. For model evaluation, we explore various modeling approaches specifically designed for this task: 1) optimizing separate models for answerability detection, SQL generation, and error detection, which are then integrated into a single pipeline; and 2) developing a unified approach that uses a single model to solve this task. Experimental results using our new reliability score show that addressing this challenge involves many different areas of research and opens new avenues for model development. However, none of the methods consistently surpasses the reliability scores of a naive baseline that abstains from SQL predictions for all questions, with varying penalties.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、自然言語の質問をSQLクエリに翻訳する際の大幅な改善につながっている。
SQL生成において高い精度を達成することは重要であるが、これらのテキスト-SQLモデルが現実世界のデプロイで遭遇するさまざまな種類の問題に確実に対処できる範囲についてはほとんど分かっていない。
この側面を探るため、TrustSQLは、シングルデータベースとクロスデータベースの両方の設定において、テキスト-SQLモデルの信頼性を評価するために設計された新しいベンチマークである。
TrustSQLは2つのアウトプットのうちの1つを提供するためにモデルを必要とする。
1) SQL の予測
2) 生成されたSQLの潜在的なエラーや、解決不可能な質問に直面した場合に、SQLの予測を控える。
モデル評価のために,本課題に特化して設計された様々なモデリング手法について検討する。
1) 応答可能性検出、SQL生成、エラー検出のための別々のモデルを最適化し、単一のパイプラインに統合する。
2) この課題を解決するために単一のモデルを使用する統一的なアプローチを開発する。
我々の新しい信頼性スコアを用いた実験結果から、この課題に対処するには様々な研究領域が関与し、モデル開発のための新たな道を開くことが示されている。
しかし、いずれのメソッドも、すべての質問に対してSQL予測を棄却するナイーブなベースラインの信頼性スコアを、さまざまな罰則で一貫して上回るものはない。
関連論文リスト
- MSc-SQL: Multi-Sample Critiquing Small Language Models For Text-To-SQL Translation [10.205010004198757]
テキスト・ツー・ジェネレーションは、非専門家が自然言語でデータベースと対話することを可能にする。
GPT-4のような大規模クローズドソースモデルの最近の進歩は、アクセシビリティ、プライバシ、レイテンシの課題を提示している。
我々は、小型で効率的でオープンソースのテキスト・ツー・ジェネレーション・モデルの開発に注力する。
論文 参考訳(メタデータ) (2024-10-16T18:03:24Z) - Natural language to SQL in low-code platforms [0.0]
自然言語(NL)クエリを記述可能なパイプラインを提案する。
OutSystemsユーザによって最も頻繁に実行されるクエリをカバーするデータを収集、ラベル付け、検証します。
パイプライン全体について説明します。フィードバックループによって,運用データの迅速な収集が可能になります。
論文 参考訳(メタデータ) (2023-08-29T11:59:02Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Error Detection for Text-to-SQL Semantic Parsing [18.068244400731366]
現代のテキスト・トゥ・セマンティクスは、しばしば過信であり、実際の使用のためにデプロイされた際の信頼性に疑問を呈する。
本稿では,テキスト間セマンティック解析のためのa-独立誤差検出モデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T04:44:22Z) - Interactive Text-to-SQL Generation via Editable Step-by-Step
Explanations [31.3376894001311]
本稿では,ユーザがクエリのステップバイステップ説明を直接編集してエラーを修正する,新たなインタラクションメカニズムを提案する。
複数のデータセットに対する我々の実験は、24人の参加者を持つユーザとともに、我々のアプローチが複数のSOTAアプローチより優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-12T10:45:29Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。
提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文 参考訳(メタデータ) (2020-07-30T07:44:48Z) - Bertrand-DR: Improving Text-to-SQL using a Discriminative Re-ranker [1.049360126069332]
生成テキスト-リミモデルの性能向上を図るために,新しい離散型リランカを提案する。
テキスト・ト・リミモデルとリランカモデルの相対強度を最適性能として解析する。
本稿では,2つの最先端テキスト-リミモデルに適用することで,リランカの有効性を実証する。
論文 参考訳(メタデータ) (2020-02-03T04:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。