論文の概要: Calibrating LLMs for Text-to-SQL Parsing by Leveraging Sub-clause Frequencies
- arxiv url: http://arxiv.org/abs/2505.23804v1
- Date: Tue, 27 May 2025 01:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.517687
- Title: Calibrating LLMs for Text-to-SQL Parsing by Leveraging Sub-clause Frequencies
- Title(参考訳): サブクラス周波数の活用によるテキストからSQLへのパーシングのためのLLMの校正
- Authors: Terrance Liu, Shuyi Wang, Daniel Preotiuc-Pietro, Yash Chandarana, Chirag Gupta,
- Abstract要約: 出力クエリの正しさを伝達する正当性スコアを提供するという課題について検討する。
私たちの研究は、テキスト・ツー・パーシングのポストホックキャリブレーションのためのベンチマークを最初に確立したものです。
- 参考スコア(独自算出の注目度): 28.281517110365037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) achieve strong performance on text-to-SQL parsing, they sometimes exhibit unexpected failures in which they are confidently incorrect. Building trustworthy text-to-SQL systems thus requires eliciting reliable uncertainty measures from the LLM. In this paper, we study the problem of providing a calibrated confidence score that conveys the likelihood of an output query being correct. Our work is the first to establish a benchmark for post-hoc calibration of LLM-based text-to-SQL parsing. In particular, we show that Platt scaling, a canonical method for calibration, provides substantial improvements over directly using raw model output probabilities as confidence scores. Furthermore, we propose a method for text-to-SQL calibration that leverages the structured nature of SQL queries to provide more granular signals of correctness, named "sub-clause frequency" (SCF) scores. Using multivariate Platt scaling (MPS), our extension of the canonical Platt scaling technique, we combine individual SCF scores into an overall accurate and calibrated score. Empirical evaluation on two popular text-to-SQL datasets shows that our approach of combining MPS and SCF yields further improvements in calibration and the related task of error detection over traditional Platt scaling.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストからSQLへのパースで高いパフォーマンスを達成するが、予期せぬ失敗を示すことがある。
したがって、信頼できるテキスト-SQLシステムを構築するには、LLMから信頼性のある不確実性対策を引き出す必要がある。
本稿では、出力クエリの正しさを伝達する正当性スコアを提供することの問題点について検討する。
LLMベースのテキスト-SQL解析のポストホックキャリブレーションのためのベンチマークを最初に確立した。
特に,キャリブレーションの標準手法であるプラットスケーリングは,信頼度スコアとして生モデル出力確率を直接使用した場合よりも大幅に向上することを示した。
さらに,SQLクエリの構造的特性を利用したテキストからSQLへのキャリブレーション手法を提案する。
多変量プラットスケーリング(MPS)を用いることで、各SCFスコアを総合的精度と校正スコアに組み合わせる。
2つの人気のあるテキスト-SQLデータセットに対する実証的な評価は、MPSとSCFを組み合わせることで、従来のPlatetスケーリングよりもキャリブレーションと関連するエラー検出のタスクがさらに改善されることを示している。
関連論文リスト
- CSC-SQL: Corrective Self-Consistency in Text-to-SQL via Reinforcement Learning [0.0]
自己整合性と自己整合性を統合する新しい手法であるCSC-を提案する。
我々の3Bモデルは65.28%の精度で実行し、7Bモデルは69.19%の精度で実行した。
BIRDでは,3Bモデルが65.28%,7Bモデルが69.19%を達成している。
論文 参考訳(メタデータ) (2025-05-19T15:52:19Z) - SQLCritic: Correcting Text-to-SQL Generation via Clause-wise Critic [8.680252929322684]
そこで我々は,sqlCriticBenchというベンチマークとともに,節単位の批判生成タスクを導入し,詳細なエラーローカライゼーションを行う。
また,自動トレーニングデータセットキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-11T02:52:39Z) - Text-to-SQL Calibration: No Need to Ask -- Just Rescale Model Probabilities [20.606333546028516]
モデルの全シーケンス確率から信頼を得る直接的なベースラインが、最近の手法より優れていることを示す。
2つの広く使われているテキスト・トゥ・チェック・ベンチマークと複数のアーキテクチャで実施された総合的な評価は、様々な校正戦略の有効性に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-23T19:20:24Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。