論文の概要: Confidence Estimation for Text-to-SQL in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.14056v1
- Date: Fri, 08 Aug 2025 23:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.528452
- Title: Confidence Estimation for Text-to-SQL in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるテキストからSQLへの信頼度推定
- Authors: Sepideh Entezari Maleki, Mohammadreza Pourreza, Davood Rafiei,
- Abstract要約: 大規模言語モデル(LLM)の文脈において,モデルの重み付けや勾配へのアクセスがしばしば制約される問題について検討する。
ブラックボックスとホワイトボックスの信頼度評価戦略について検討し、クロスドメインベンチマーク上での有効性を評価する。
- 参考スコア(独自算出の注目度): 5.5643498845134545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Confidence estimation for text-to-SQL aims to assess the reliability of model-generated SQL queries without having access to gold answers. We study this problem in the context of large language models (LLMs), where access to model weights and gradients is often constrained. We explore both black-box and white-box confidence estimation strategies, evaluating their effectiveness on cross-domain text-to-SQL benchmarks. Our evaluation highlights the superior performance of consistency-based methods among black-box models and the advantage of SQL-syntax-aware approaches for interpreting LLM logits in white-box settings. Furthermore, we show that execution-based grounding of queries provides a valuable supplementary signal, improving the effectiveness of both approaches.
- Abstract(参考訳): テキストからSQLへの信頼度の推定は、ゴールド回答にアクセスせずにモデル生成SQLクエリの信頼性を評価することを目的としている。
モデル重みと勾配へのアクセスが制約されることの多い大規模言語モデル (LLM) の文脈でこの問題を研究する。
ブラックボックスとホワイトボックスの信頼度評価戦略について検討し、クロスドメインテキスト-SQLベンチマークでの有効性を評価する。
評価では,ブラックボックスモデル間の一貫性に基づく手法の優れた性能と,ホワイトボックス設定におけるLCMロジットの解釈におけるSQL-syntax-awareアプローチの利点を強調した。
さらに,クエリの実行に基づくグラウンド化は,双方のアプローチの有効性を向上する上で,有用な補足信号を提供することを示す。
関連論文リスト
- Solid-SQL: Enhanced Schema-linking based In-context Learning for Robust Text-to-SQL [13.122218546167463]
大規模言語モデル(LLM)は、テキスト・ツー・システムの性能を大幅に改善した。
多くのSOTA(State-of-the-art)アプローチは、システムの堅牢性の重要な側面を見落としている。
論文 参考訳(メタデータ) (2024-12-17T04:22:22Z) - Text-to-SQL Calibration: No Need to Ask -- Just Rescale Model Probabilities [20.606333546028516]
モデルの全シーケンス確率から信頼を得る直接的なベースラインが、最近の手法より優れていることを示す。
2つの広く使われているテキスト・トゥ・チェック・ベンチマークと複数のアーキテクチャで実施された総合的な評価は、様々な校正戦略の有効性に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-23T19:20:24Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring [11.78795632771211]
本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。
2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
論文 参考訳(メタデータ) (2024-03-23T16:12:52Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。