Fugu-MT 論文翻訳(概要): TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions

論文の概要: TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions

arxiv url: http://arxiv.org/abs/2403.15879v1
Date: Sat, 23 Mar 2024 16:12:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 20:42:03.559304
Title: TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions
Title（参考訳）: TrustSQL: さまざまな疑問のあるテキストからSQLモデルに対する信頼性ベンチマーク
Authors: Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi,
Abstract要約: テキスト・ツー・アンサー・モデルの信頼性を評価するための新しいベンチマークであるTrustを提示する。モデル評価のために,本課題に特化して設計された様々なモデリング手法について検討する。
参考スコア（独自算出の注目度）: 11.78795632771211
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in large language models (LLMs) have led to significant improvements in translating natural language questions into SQL queries. While achieving high accuracy in SQL generation is crucial, little is known about the extent to which these text-to-SQL models can reliably handle diverse types of questions encountered during real-world deployment, including unanswerable ones. To explore this aspect, we present TrustSQL, a new benchmark designed to assess the reliability of text-to-SQL models in both single-database and cross-database settings. The benchmark tasks models with providing one of two outcomes: 1) SQL prediction; or 2) abstention from making a prediction, either when there is a potential error in the generated SQL or when faced with unanswerable questions. For model evaluation, we explore various modeling approaches specifically designed for this task. These include: 1) optimizing separate models for answerability detection, SQL generation, and error detection, which are then integrated into a single pipeline; and 2) developing a unified approach that optimizes a single model to address the proposed task. Experimental results using our new reliability score show that addressing this challenge involves many different areas of research and opens new avenues for model development. Nonetheless, none of the methods surpass the reliability performance of the naive baseline, which abstains from answering all questions.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、自然言語の質問をSQLクエリに翻訳する際の大幅な改善につながっている。 SQL生成において高い精度を達成することは重要であるが、これらのテキスト-SQLモデルが現実世界のデプロイで遭遇するさまざまな種類の問題に確実に対処できる範囲についてはほとんど分かっていない。この側面を探るため、TrustSQLは、シングルデータベースとクロスデータベースの両方の設定において、テキスト-SQLモデルの信頼性を評価するために設計された新しいベンチマークである。ベンチマークは、以下の2つの結果のうちの1つを提供するように、モデルをタスクする。 1) SQL予測,又は 2) 生成されたSQLに潜在的なエラーがある場合や、解決不可能な質問に直面した場合、予測を控える。モデル評価のために,本課題に特化して設計された様々なモデリング手法について検討する。以下を含む。 1) 応答可能性検出、SQL生成、エラー検出のための別々のモデルを最適化し、単一のパイプラインに統合する。 2) 提案した課題に対処する単一モデルを最適化する統一的なアプローチを開発する。我々の新しい信頼性スコアを用いた実験結果から、この課題に対処するには様々な研究領域が関与し、モデル開発のための新たな道を開くことが示されている。それにもかかわらず、どの手法もすべての質問に答えることを禁じるナイーブベースラインの信頼性性能を超えるものはない。

関連論文リスト

Bridging Global Intent with Local Details: A Hierarchical Representation Approach for Semantic Validation in Text-to-SQL [30.78817492504152]
HEROは、グローバルな意図と局所的な詳細を統合する階層的な表現アプローチである。我々はNested Message Passing Neural Network (NMPNN) を用いて、関係スキーマ誘導セマンティクスにおける固有情報をキャプチャする。提案手法は既存の最先端手法よりも優れており,AUPRCの9.40%,AUROCの12.35%が意味的不整合を識別している。きめ細かいセマンティックエラーを検出し、よりきめ細かいフィードバックで大きな言語モデルを提供し、最終的にはデータクエリプラットフォームの信頼性と解釈性を高めます。
論文参考訳（メタデータ） (2025-12-28T02:25:33Z)
Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文参考訳（メタデータ） (2025-11-26T13:52:50Z)
SPFT-SQL: Enhancing Large Language Model for Text-to-SQL Parsing by Self-Play Fine-Tuning [8.501743260277324]
セルフプレイファインチューニング(SPIN)は、弱い大きな言語モデル(LLM)を競合する相互作用を通じて強力な言語に変換することができる。本研究では,SPFT-tuningと呼ばれるテキスト・ツー・タスクに適した,新たなセルフプレイ・ファイン・チューニング手法を提案する。自己再生の微調整フェーズにおいて,不適切な出力を相手モデルからインセンティブを与える誤り駆動損失法を提案する。
論文参考訳（メタデータ） (2025-09-04T06:55:46Z)
RetrySQL: text-to-SQL training with retry data for self-correcting query generation [1.6707278580444538]
テキスト・ツー・ジェネレーションモデルをトレーニングするための新しいアプローチであるRetryを紹介します。再試行のステップは、総合的および挑戦的な実行精度の指標において最大4ポイントの改善をもたらすことを実証する。
論文参考訳（メタデータ） (2025-07-03T11:00:49Z)
Enhancing Accuracy and Maintainability in Nuclear Plant Data Retrieval: A Function-Calling LLM Approach Over NL-to-SQL [0.0]
原子力発電所から運用データを取得するには、それが支援する決定の臨界性のために、極めて正確かつ透明性が必要である。伝統的に、SQLへの自然言語(NL-to-)アプローチは、そのようなデータをクエリするために検討されてきた。本稿では,これらの課題に対処するために,関数呼び出し型大言語モデル(LLM)を活用するための代替パラダイムを提案する。
論文参考訳（メタデータ） (2025-06-10T12:55:07Z)
Valid Text-to-SQL Generation with Unification-based DeepStochLog [13.798222228959132]
本稿では,統一に基づく定節文法を用いた構文制約とスキーマ制約を課すニューロシンボリック・フレームワークを提案する。私たちのフレームワークは、自然言語理解能力を活用するために、言語モデルに対する双方向インターフェースも構築しています。この作業は、統一ベースの文法で言語モデルを拡張するための最初のステップである。
論文参考訳（メタデータ） (2025-03-17T16:21:10Z)
MSc-SQL: Multi-Sample Critiquing Small Language Models For Text-To-SQL Translation [10.205010004198757]
テキスト・ツー・ジェネレーションは、非専門家が自然言語でデータベースと対話することを可能にする。 GPT-4のような大規模クローズドソースモデルの最近の進歩は、アクセシビリティ、プライバシ、レイテンシの課題を提示している。我々は、小型で効率的でオープンソースのテキスト・ツー・ジェネレーション・モデルの開発に注力する。
論文参考訳（メタデータ） (2024-10-16T18:03:24Z)
Natural language to SQL in low-code platforms [0.0]
自然言語(NL)クエリを記述可能なパイプラインを提案する。 OutSystemsユーザによって最も頻繁に実行されるクエリをカバーするデータを収集、ラベル付け、検証します。パイプライン全体について説明します。フィードバックループによって,運用データの迅速な収集が可能になります。
論文参考訳（メタデータ） (2023-08-29T11:59:02Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Error Detection for Text-to-SQL Semantic Parsing [18.068244400731366]
現代のテキスト・トゥ・セマンティクスは、しばしば過信であり、実際の使用のためにデプロイされた際の信頼性に疑問を呈する。本稿では,テキスト間セマンティック解析のためのa-独立誤差検出モデルを提案する。
論文参考訳（メタデータ） (2023-05-23T04:44:22Z)
Interactive Text-to-SQL Generation via Editable Step-by-Step Explanations [31.3376894001311]
本稿では,ユーザがクエリのステップバイステップ説明を直接編集してエラーを修正する,新たなインタラクションメカニズムを提案する。複数のデータセットに対する我々の実験は、24人の参加者を持つユーザとともに、我々のアプローチが複数のSOTAアプローチより優れていることを実証している。
論文参考訳（メタデータ） (2023-05-12T10:45:29Z)
SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。 5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文参考訳（メタデータ） (2022-09-14T06:27:51Z)
A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文参考訳（メタデータ） (2022-08-29T14:24:13Z)
Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文参考訳（メタデータ） (2021-12-12T20:02:42Z)
Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文参考訳（メタデータ） (2020-07-30T07:44:48Z)
Bertrand-DR: Improving Text-to-SQL using a Discriminative Re-ranker [1.049360126069332]
生成テキスト-リミモデルの性能向上を図るために,新しい離散型リランカを提案する。テキスト・ト・リミモデルとリランカモデルの相対強度を最適性能として解析する。本稿では,2つの最先端テキスト-リミモデルに適用することで,リランカの有効性を実証する。
論文参考訳（メタデータ） (2020-02-03T04:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。