論文の概要: Solid-SQL: Enhanced Schema-linking based In-context Learning for Robust Text-to-SQL
- arxiv url: http://arxiv.org/abs/2412.12522v1
- Date: Tue, 17 Dec 2024 04:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:50.388468
- Title: Solid-SQL: Enhanced Schema-linking based In-context Learning for Robust Text-to-SQL
- Title(参考訳): Solid-SQL: スキーマリンクによるロバストテキストからSQLへのインコンテキスト学習
- Authors: Geling Liu, Yunzhi Tan, Ruichao Zhong, Yuanzhen Xie, Lingchen Zhao, Qian Wang, Bo Hu, Zang Li,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト・ツー・システムの性能を大幅に改善した。
多くのSOTA(State-of-the-art)アプローチは、システムの堅牢性の重要な側面を見落としている。
- 参考スコア(独自算出の注目度): 13.122218546167463
- License:
- Abstract: Recently, large language models (LLMs) have significantly improved the performance of text-to-SQL systems. Nevertheless, many state-of-the-art (SOTA) approaches have overlooked the critical aspect of system robustness. Our experiments reveal that while LLM-driven methods excel on standard datasets, their accuracy is notably compromised when faced with adversarial perturbations. To address this challenge, we propose a robust text-to-SQL solution, called Solid-SQL, designed to integrate with various LLMs. We focus on the pre-processing stage, training a robust schema-linking model enhanced by LLM-based data augmentation. Additionally, we design a two-round, structural similarity-based example retrieval strategy for in-context learning. Our method achieves SOTA SQL execution accuracy levels of 82.1% and 58.9% on the general Spider and Bird benchmarks, respectively. Furthermore, experimental results show that Solid-SQL delivers an average improvement of 11.6% compared to baselines on the perturbed Spider-Syn, Spider-Realistic, and Dr. Spider benchmarks.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は,テキスト-SQLシステムの性能を大幅に改善している。
それでも、多くのSOTA(State-of-the-art)アプローチは、システムの堅牢性の重要な側面を見落としている。
実験の結果, LLM駆動法は標準データセットに優れるが, 逆方向の摂動に直面すると, 精度が著しく損なわれることがわかった。
この課題に対処するために,さまざまなLLMを統合するように設計された,Solid-SQLと呼ばれる堅牢なテキスト-SQLソリューションを提案する。
我々は、LLMベースのデータ拡張によって強化された堅牢なスキーマリンクモデルをトレーニングし、前処理ステージに焦点を当てる。
さらに,テキスト内学習のための2ラウンド構造的類似性に基づくサンプル検索戦略を設計する。
本手法は,一般的なスパイダーとバードのベンチマークでそれぞれ82.1%,58.9%のSOTA SQL実行精度を達成している。
さらに、実験の結果、Solid-SQLは摂動スパイダーシン、スパイダー・リアリスティック、Dr.スパイダーベンチマークのベースラインに比べて平均11.6%改善していることが示された。
関連論文リスト
- RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with
Self-Correction [7.388002745070808]
本研究では、生成問題をサブプロブレムに分解し、それらのサブプロブレムの解を大規模言語モデルに供給する方法について検討する。
文脈内学習による我々のアプローチは、多くの微調整されたモデルを少なくとも5%上回っている。
論文 参考訳(メタデータ) (2023-04-21T15:02:18Z) - Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL
Robustness [115.66421993459663]
近年の研究では、テキスト・ツー・モデルはタスク固有の摂動に弱いことが示されている。
モデル診断のための包括的ロバスト性ベンチマークを提案する。
我々は、そのセット上の最先端モデルの診断研究を行う。
論文 参考訳(メタデータ) (2023-01-21T03:57:18Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。