論文の概要: Text-to-SQL Calibration: No Need to Ask -- Just Rescale Model Probabilities
- arxiv url: http://arxiv.org/abs/2411.16742v1
- Date: Sat, 23 Nov 2024 19:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 18:51:12.61511
- Title: Text-to-SQL Calibration: No Need to Ask -- Just Rescale Model Probabilities
- Title(参考訳): Text-to-SQLキャリブレーション: Askする必要はない -- モデル確率を再スケールするだけだ
- Authors: Ashwin Ramachandran, Sunita Sarawagi,
- Abstract要約: モデルの全シーケンス確率から信頼を得る直接的なベースラインが、最近の手法より優れていることを示す。
2つの広く使われているテキスト・トゥ・チェック・ベンチマークと複数のアーキテクチャで実施された総合的な評価は、様々な校正戦略の有効性に関する貴重な洞察を提供する。
- 参考スコア(独自算出の注目度): 20.606333546028516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Calibration is crucial as large language models (LLMs) are increasingly deployed to convert natural language queries into SQL for commercial databases. In this work, we investigate calibration techniques for assigning confidence to generated SQL queries. We show that a straightforward baseline -- deriving confidence from the model's full-sequence probability -- outperforms recent methods that rely on follow-up prompts for self-checking and confidence verbalization. Our comprehensive evaluation, conducted across two widely-used Text-to-SQL benchmarks and multiple LLM architectures, provides valuable insights into the effectiveness of various calibration strategies.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、自然言語クエリを商用データベース用のSQLに変換するために、ますます多くデプロイされているため、キャリブレーションは極めて重要である。
本研究では,生成したSQLクエリに信頼性を割り当てるキャリブレーション手法について検討する。
モデルの全シーケンス確率から信頼を得る素直なベースラインが、自己チェックと自信の言語化のためのフォローアッププロンプトに依存する最近の手法より優れていることを示す。
2つの広く使われているText-to-SQLベンチマークと複数のLLMアーキテクチャで実施された包括的な評価は、様々なキャリブレーション戦略の有効性に関する貴重な洞察を提供する。
関連論文リスト
- An LLM-Based Approach for Insight Generation in Data Analysis [9.077654650104055]
本稿では,Large Language Models (LLMs) を用いたテキストインサイトの自動生成手法を提案する。
入力としてマルチテーブルデータベースが与えられると、LLMを活用して、テーブルの興味深いパターンを反映した簡潔でテキストベースの洞察を生成する。
これらの知見は、人間の判断と自動メトリクスのハイブリッドモデルを用いて、正当性と主観的洞察力の両方について評価される。
論文 参考訳(メタデータ) (2025-02-20T17:09:59Z) - Reliable Text-to-SQL with Adaptive Abstention [21.07332675929629]
本稿では,提案手法を組み込むことにより,クエリ生成の信頼性を向上させる新しいフレームワークを提案する。
我々はBIRDベンチマークの総合的な実験を通じてアプローチを検証するとともに、堅牢性と信頼性の大幅な向上を実証した。
論文 参考訳(メタデータ) (2025-01-18T19:36:37Z) - Confidence Estimation for Error Detection in Text-to-SQL Systems [5.636160825241556]
本研究では,選択型分類器のテキスト・ツー・ラーニングシステムへの統合について検討する。
エンコーダ-デコーダ T5 は,テキスト内 GPT 4 やデコーダのみの Llama 3 よりもキャリブレーションが優れていることを示す。
誤り検出の観点では、高い確率の選択的分類器は、不正なクエリ生成ではなく、無関係な質問に関連する誤りを検出する。
論文 参考訳(メタデータ) (2025-01-16T13:23:07Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - Automating Pharmacovigilance Evidence Generation: Using Large Language Models to Produce Context-Aware SQL [0.0]
検索拡張世代(RAG)フレームワークでOpenAIのGPT-4モデルを利用する。
ビジネスコンテキストドキュメントはビジネスコンテキストドキュメントでリッチ化され、NLQを構造化クエリ言語クエリに変換する。
複雑性の高いクエリが除外された場合、パフォーマンスは最大85%向上した。
論文 参考訳(メタデータ) (2024-06-15T17:07:31Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。
特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。
私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring [11.78795632771211]
本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。
2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
論文 参考訳(メタデータ) (2024-03-23T16:12:52Z) - CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。