論文の概要: TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions
- arxiv url: http://arxiv.org/abs/2403.15879v1
- Date: Sat, 23 Mar 2024 16:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:42:03.559304
- Title: TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions
- Title(参考訳): TrustSQL: さまざまな疑問のあるテキストからSQLモデルに対する信頼性ベンチマーク
- Authors: Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi,
- Abstract要約: テキスト・ツー・アンサー・モデルの信頼性を評価するための新しいベンチマークであるTrustを提示する。
モデル評価のために,本課題に特化して設計された様々なモデリング手法について検討する。
- 参考スコア(独自算出の注目度): 11.78795632771211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have led to significant improvements in translating natural language questions into SQL queries. While achieving high accuracy in SQL generation is crucial, little is known about the extent to which these text-to-SQL models can reliably handle diverse types of questions encountered during real-world deployment, including unanswerable ones. To explore this aspect, we present TrustSQL, a new benchmark designed to assess the reliability of text-to-SQL models in both single-database and cross-database settings. The benchmark tasks models with providing one of two outcomes: 1) SQL prediction; or 2) abstention from making a prediction, either when there is a potential error in the generated SQL or when faced with unanswerable questions. For model evaluation, we explore various modeling approaches specifically designed for this task. These include: 1) optimizing separate models for answerability detection, SQL generation, and error detection, which are then integrated into a single pipeline; and 2) developing a unified approach that optimizes a single model to address the proposed task. Experimental results using our new reliability score show that addressing this challenge involves many different areas of research and opens new avenues for model development. Nonetheless, none of the methods surpass the reliability performance of the naive baseline, which abstains from answering all questions.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、自然言語の質問をSQLクエリに翻訳する際の大幅な改善につながっている。
SQL生成において高い精度を達成することは重要であるが、これらのテキスト-SQLモデルが現実世界のデプロイで遭遇するさまざまな種類の問題に確実に対処できる範囲についてはほとんど分かっていない。
この側面を探るため、TrustSQLは、シングルデータベースとクロスデータベースの両方の設定において、テキスト-SQLモデルの信頼性を評価するために設計された新しいベンチマークである。
ベンチマークは、以下の2つの結果のうちの1つを提供するように、モデルをタスクする。
1) SQL予測,又は
2) 生成されたSQLに潜在的なエラーがある場合や、解決不可能な質問に直面した場合、予測を控える。
モデル評価のために,本課題に特化して設計された様々なモデリング手法について検討する。
以下を含む。
1) 応答可能性検出、SQL生成、エラー検出のための別々のモデルを最適化し、単一のパイプラインに統合する。
2) 提案した課題に対処する単一モデルを最適化する統一的なアプローチを開発する。
我々の新しい信頼性スコアを用いた実験結果から、この課題に対処するには様々な研究領域が関与し、モデル開発のための新たな道を開くことが示されている。
それにもかかわらず、どの手法もすべての質問に答えることを禁じるナイーブベースラインの信頼性性能を超えるものはない。
関連論文リスト
- MSc-SQL: Multi-Sample Critiquing Small Language Models For Text-To-SQL Translation [10.205010004198757]
テキスト・ツー・ジェネレーションは、非専門家が自然言語でデータベースと対話することを可能にする。
GPT-4のような大規模クローズドソースモデルの最近の進歩は、アクセシビリティ、プライバシ、レイテンシの課題を提示している。
我々は、小型で効率的でオープンソースのテキスト・ツー・ジェネレーション・モデルの開発に注力する。
論文 参考訳(メタデータ) (2024-10-16T18:03:24Z) - Natural language to SQL in low-code platforms [0.0]
自然言語(NL)クエリを記述可能なパイプラインを提案する。
OutSystemsユーザによって最も頻繁に実行されるクエリをカバーするデータを収集、ラベル付け、検証します。
パイプライン全体について説明します。フィードバックループによって,運用データの迅速な収集が可能になります。
論文 参考訳(メタデータ) (2023-08-29T11:59:02Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Error Detection for Text-to-SQL Semantic Parsing [18.068244400731366]
現代のテキスト・トゥ・セマンティクスは、しばしば過信であり、実際の使用のためにデプロイされた際の信頼性に疑問を呈する。
本稿では,テキスト間セマンティック解析のためのa-独立誤差検出モデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T04:44:22Z) - Interactive Text-to-SQL Generation via Editable Step-by-Step
Explanations [31.3376894001311]
本稿では,ユーザがクエリのステップバイステップ説明を直接編集してエラーを修正する,新たなインタラクションメカニズムを提案する。
複数のデータセットに対する我々の実験は、24人の参加者を持つユーザとともに、我々のアプローチが複数のSOTAアプローチより優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-12T10:45:29Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。
提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文 参考訳(メタデータ) (2020-07-30T07:44:48Z) - Bertrand-DR: Improving Text-to-SQL using a Discriminative Re-ranker [1.049360126069332]
生成テキスト-リミモデルの性能向上を図るために,新しい離散型リランカを提案する。
テキスト・ト・リミモデルとリランカモデルの相対強度を最適性能として解析する。
本稿では,2つの最先端テキスト-リミモデルに適用することで,リランカの有効性を実証する。
論文 参考訳(メタデータ) (2020-02-03T04:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。