論文の概要: Confidence Estimation for Error Detection in Text-to-SQL Systems
- arxiv url: http://arxiv.org/abs/2501.09527v1
- Date: Thu, 16 Jan 2025 13:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:35.248001
- Title: Confidence Estimation for Error Detection in Text-to-SQL Systems
- Title(参考訳): テキスト-SQLシステムにおける誤り検出の信頼度推定
- Authors: Oleg Somov, Elena Tutubalina,
- Abstract要約: 本研究では,選択型分類器のテキスト・ツー・ラーニングシステムへの統合について検討する。
エンコーダ-デコーダ T5 は,テキスト内 GPT 4 やデコーダのみの Llama 3 よりもキャリブレーションが優れていることを示す。
誤り検出の観点では、高い確率の選択的分類器は、不正なクエリ生成ではなく、無関係な質問に関連する誤りを検出する。
- 参考スコア(独自算出の注目度): 5.636160825241556
- License:
- Abstract: Text-to-SQL enables users to interact with databases through natural language, simplifying the retrieval and synthesis of information. Despite the success of large language models (LLMs) in converting natural language questions into SQL queries, their broader adoption is limited by two main challenges: achieving robust generalization across diverse queries and ensuring interpretative confidence in their predictions. To tackle these issues, our research investigates the integration of selective classifiers into Text-to-SQL systems. We analyse the trade-off between coverage and risk using entropy based confidence estimation with selective classifiers and assess its impact on the overall performance of Text-to-SQL models. Additionally, we explore the models' initial calibration and improve it with calibration techniques for better model alignment between confidence and accuracy. Our experimental results show that encoder-decoder T5 is better calibrated than in-context-learning GPT 4 and decoder-only Llama 3, thus the designated external entropy-based selective classifier has better performance. The study also reveal that, in terms of error detection, selective classifier with a higher probability detects errors associated with irrelevant questions rather than incorrect query generations.
- Abstract(参考訳): Text-to-SQLを使えば、自然言語でデータベースと対話でき、情報の検索と合成が簡単になる。
自然言語の質問をSQLクエリに変換する大規模言語モデル(LLM)の成功にもかかわらず、その広範な採用は2つの大きな課題によって制限されている。
これらの課題に対処するため,テキスト・トゥ・SQLシステムへの選択型分類器の統合について検討した。
我々は,選択型分類器を用いたエントロピーに基づく信頼度推定を用いて,カバレッジとリスクのトレードオフを分析し,テキスト・トゥ・SQLモデル全体の性能に与える影響を評価する。
さらに,モデルの初期キャリブレーションについて検討し,信頼性と精度のモデルアライメントを改善するためにキャリブレーション手法を用いて改善する。
実験結果から,Encoder-decoder T5はテキスト内学習のGPT 4やdecoder-only Llama 3よりも校正性が高いことがわかった。
この研究は、誤り検出の観点で、高い確率の選択的分類器は、不正なクエリ生成ではなく、無関係な質問に関連する誤りを検出することも明らかにした。
関連論文リスト
- Reliable Text-to-SQL with Adaptive Abstention [21.07332675929629]
本稿では,提案手法を組み込むことにより,クエリ生成の信頼性を向上させる新しいフレームワークを提案する。
我々はBIRDベンチマークの総合的な実験を通じてアプローチを検証するとともに、堅牢性と信頼性の大幅な向上を実証した。
論文 参考訳(メタデータ) (2025-01-18T19:36:37Z) - Text-to-SQL Calibration: No Need to Ask -- Just Rescale Model Probabilities [20.606333546028516]
モデルの全シーケンス確率から信頼を得る直接的なベースラインが、最近の手法より優れていることを示す。
2つの広く使われているテキスト・トゥ・チェック・ベンチマークと複数のアーキテクチャで実施された総合的な評価は、様々な校正戦略の有効性に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-23T19:20:24Z) - Epistemic Integrity in Large Language Models [11.173637560124828]
大規模な言語モデルは情報ソースにますます頼っているが、偽りや誤解を招く声明の妥当性はユーザーや社会に高いリスクをもたらす。
本稿では,モデルの言語的主張が真の内部的確証を反映しないという,誤校正の重大な問題に直面する。
大規模言語モデルの言語的アサーション性を評価するための,新しい人的ミスアライメント評価と新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-10T17:10:13Z) - Context-Aware SQL Error Correction Using Few-Shot Learning -- A Novel Approach Based on NLQ, Error, and SQL Similarity [0.0]
本稿では,誤り訂正 insql 生成のための新しい数ショット学習手法を提案する。
与えられた自然言語質問(NLQ)に対して最も適した少数ショット誤り訂正例を選択することにより、生成されたクエリの精度を向上させる。
オープンソースデータセットを用いた実験では、単純な誤り訂正法により、誤り訂正のない修正エラーが39.2%増加し、10%増加した。
論文 参考訳(メタデータ) (2024-10-11T18:22:08Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL
Robustness [115.66421993459663]
近年の研究では、テキスト・ツー・モデルはタスク固有の摂動に弱いことが示されている。
モデル診断のための包括的ロバスト性ベンチマークを提案する。
我々は、そのセット上の最先端モデルの診断研究を行う。
論文 参考訳(メタデータ) (2023-01-21T03:57:18Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。