論文の概要: DAC: Decomposed Automation Correction for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2408.08779v1
- Date: Fri, 16 Aug 2024 14:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 15:14:04.782525
- Title: DAC: Decomposed Automation Correction for Text-to-SQL
- Title(参考訳): DAC: テキストからSQLへの自動修正の分解
- Authors: Dingzirui Wang, Longxu Dou, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che,
- Abstract要約: De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
- 参考スコア(独自算出の注目度): 51.48239006107272
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-SQL is an important task that helps people obtain information from databases by automatically generating SQL queries. Considering the brilliant performance, approaches based on Large Language Models (LLMs) become the mainstream for text-to-SQL. Among these approaches, automated correction is an effective approach that further enhances performance by correcting the mistakes in the generated results. The existing correction methods require LLMs to directly correct with generated SQL, while previous research shows that LLMs do not know how to detect mistakes, leading to poor performance. Therefore, in this paper, we propose to employ the decomposed correction to enhance text-to-SQL performance. We first demonstrate that decomposed correction outperforms direct correction since detecting and fixing mistakes with the results of the decomposed sub-tasks is easier than with SQL. Based on this analysis, we introduce Decomposed Automation Correction (DAC), which corrects SQL by decomposing text-to-SQL into entity linking and skeleton parsing. DAC first generates the entity and skeleton corresponding to the question and then compares the differences between the initial SQL and the generated entities and skeleton as feedback for correction. Experimental results show that our method improves performance by $3.7\%$ on average of Spider, Bird, and KaggleDBQA compared with the baseline method, demonstrating the effectiveness of DAC.
- Abstract(参考訳): Text-to-SQLは、SQLクエリを自動的に生成することで、データベースから情報を取得するのに役立つ重要なタスクである。
優れたパフォーマンスを考えると、Large Language Models(LLM)に基づくアプローチが、テキストからSQLへの主流となっている。
これらの手法のうち、自動補正は、生成された結果の誤りを修正することによって、パフォーマンスをさらに向上する効果的な手法である。
既存の修正手法では、LLMが生成したSQLを直接修正する必要があるが、以前の研究では、LLMはミスを検出する方法を知らないことが示されており、性能が低下している。
そこで本研究では,テキストからSQLへの変換性能を向上させるために,分割補正を用いることを提案する。
まず,分解されたサブタスクの結果がSQLよりも容易であることから,分解されたサブタスクの誤りの検出と修正が直接修正より優れていることを示す。
この分析に基づいて、テキストからSQLへの分解をエンティティリンクとスケルトン解析に分解することでSQLを修正するDecomposed Automation Correction (DAC)を導入する。
DACはまず、質問に対応するエンティティとスケルトンを生成し、最初のSQLと生成されたエンティティとスケルトンの違いを修正のためのフィードバックとして比較する。
実験結果から,本手法はベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が3.7 % 向上し,DACの有効性が示された。
関連論文リスト
- Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL [83.99974309930072]
知識蒸留(KD)は、より大規模な教師モデルをより小さな学生モデルに蒸留することを目的とした一般的な手法である。
我々は,不完全なデータ,すなわちKIDを用いてKDを改善することを提案する。
KIDは、すべてのモデルタイプとサイズで一貫した、重要なパフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上する。
論文 参考訳(メタデータ) (2024-10-15T07:51:00Z) - Context-Aware SQL Error Correction Using Few-Shot Learning -- A Novel Approach Based on NLQ, Error, and SQL Similarity [0.0]
本稿では,誤り訂正 insql 生成のための新しい数ショット学習手法を提案する。
与えられた自然言語質問(NLQ)に対して最も適した少数ショット誤り訂正例を選択することにより、生成されたクエリの精度を向上させる。
オープンソースデータセットを用いた実験では、単純な誤り訂正法により、誤り訂正のない修正エラーが39.2%増加し、10%増加した。
論文 参考訳(メタデータ) (2024-10-11T18:22:08Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - Enhancing Text-to-SQL Capabilities of Large Language Models via Domain Database Knowledge Injection [23.423794784621368]
大きな言語モデル(LLM)は、スキーマの問題とドメイン固有のデータベース知識の欠如によって、問題に直面します。
本稿では,従来の知識を取り入れたLLMの理解能力を高めるための知識注入手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T09:24:03Z) - PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL [54.304872649870575]
大規模言語モデル(LLM)は、テキスト・トゥ・センス・タスクの強力なツールとして登場した。
本研究では,クエリグループパーティショニングを用いることで,単一問題に特有の思考プロセスの学習に集中できることを示す。
論文 参考訳(メタデータ) (2024-09-21T09:33:14Z) - SelECT-SQL: Self-correcting ensemble Chain-of-Thought for Text-to-SQL [3.422309388045878]
SelECT-は、チェーン・オブ・シンク、自己補正、アンサンブルの手法をアルゴリズムで組み合わせた、新しいインコンテキスト学習ソリューションである。
具体的には、GPTをベースLLMとして使用する場合、SelECT-Turboはスパイダーリーダーボードの開発セット上で84.2%の実行精度を達成する。
論文 参考訳(メタデータ) (2024-09-16T05:40:18Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。