論文の概要: CodeS: Towards Building Open-source Language Models for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2402.16347v1
- Date: Mon, 26 Feb 2024 07:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:25:03.951406
- Title: CodeS: Towards Building Open-source Language Models for Text-to-SQL
- Title(参考訳): CodeS: テキストからSQLへのオープンソース言語モデルの構築を目指す
- Authors: Haoyang Li, Jing Zhang, Hanbing Liu, Ju Fan, Xiaokang Zhang, Jun Zhu,
Renjie Wei, Hongyan Pan, Cuiping Li, Hong Chen
- Abstract要約: 1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
- 参考スコア(独自算出の注目度): 42.11113113574589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models have shown promising performance on the task of translating
natural language questions into SQL queries (Text-to-SQL). However, most of the
state-of-the-art (SOTA) approaches rely on powerful yet closed-source large
language models (LLMs), such as ChatGPT and GPT-4, which may have the
limitations of unclear model architectures, data privacy risks, and expensive
inference overheads. To address the limitations, we introduce CodeS, a series
of pre-trained language models with parameters ranging from 1B to 15B,
specifically designed for the text-to-SQL task. CodeS is a fully open-source
language model, which achieves superior accuracy with much smaller parameter
sizes. This paper studies the research challenges in building CodeS. To enhance
the SQL generation abilities of CodeS, we adopt an incremental pre-training
approach using a specifically curated SQL-centric corpus. Based on this, we
address the challenges of schema linking and rapid domain adaptation through
strategic prompt construction and a bi-directional data augmentation technique.
We conduct comprehensive evaluations on multiple datasets, including the widely
used Spider benchmark, the newly released BIRD benchmark, robustness-diagnostic
benchmarks such as Spider-DK, Spider-Syn, Spider-Realistic, and Dr.Spider, as
well as two real-world datasets created for financial and academic
applications. The experimental results show that our CodeS achieves new SOTA
accuracy and robustness on nearly all challenging text-to-SQL benchmarks.
- Abstract(参考訳): 言語モデルは、自然言語質問をsqlクエリ(text-to-sql)に変換するタスクで有望なパフォーマンスを示している。
しかし、最先端(SOTA)アプローチのほとんどは、ChatGPTやGPT-4のような強力なクローズドソースの大規模言語モデル(LLM)に依存しており、不明瞭なモデルアーキテクチャ、データプライバシのリスク、高価な推論オーバーヘッドの制限がある可能性がある。
この制限に対処するため、CodeSは1Bから15Bまでのパラメータを持つ事前訓練された言語モデルであり、特にテキストからSQLタスク用に設計されている。
CodeSは完全なオープンソース言語モデルであり、パラメータサイズがはるかに小さく、精度が優れている。
本稿では,CodeS構築における研究課題について考察する。
CodeSのSQL生成能力を高めるために、特別にキュレートされたSQL中心のコーパスを使用して、インクリメンタルな事前学習アプローチを採用する。
これに基づいて、戦略的プロンプト構築と双方向データ拡張技術によるスキーマリンクと迅速なドメイン適応の課題に対処する。
我々は、広く使われているSpiderベンチマーク、新しくリリースされたBIRDベンチマーク、Spider-DK、Spider-Syn、Spider-Realistic、Dr.Spiderといったロバストネス非依存ベンチマーク、および金融および学術アプリケーション用に作成された2つの現実世界データセットを含む、複数のデータセットに関する包括的な評価を行う。
実験の結果,ほぼすべてのテキスト・sqlベンチマークにおいて,新たなsota精度とロバスト性が得られた。
関連論文リスト
- DFIN-SQL: Integrating Focused Schema with DIN-SQL for Superior Accuracy
in Large-Scale Databases [0.0]
本稿では,DIN-composed (Decomposed-In-Context) の革新的な拡張であるDFINを紹介する。
DFINは、不正確な主要なソースであるスキーマリンクエラーに対処することで、テキストからコンポジションへの変換を強化する。
実世界の挑戦的なベンチマークであるBIRDデータセットの評価では、DFINは効率だけでなく精度も向上し、51.69のスコアが得られた。
論文 参考訳(メタデータ) (2024-03-01T07:14:45Z) - Evaluating the Data Model Robustness of Text-to-SQL Systems Based on
Real User Queries [4.343983685049737]
本論文は,テキスト・ツー・システムのデータモデルロバスト性について,実際に評価した最初の事例である。
サッカーDBはFIFAワールドカップ2022の文脈で9ヶ月にわたって展開されたシステムである。
データはすべて、システムにライブで質問された実際のユーザ質問に基づいています。これらの質問のサブセットを手動でラベル付けし、3つの異なるデータモデルに翻訳しました。
論文 参考訳(メタデータ) (2024-02-13T10:28:57Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation [13.196264569882777]
現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。
本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
論文 参考訳(メタデータ) (2023-05-10T10:01:36Z) - Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL
Robustness [115.66421993459663]
近年の研究では、テキスト・ツー・モデルはタスク固有の摂動に弱いことが示されている。
モデル診断のための包括的ロバスト性ベンチマークを提案する。
我々は、そのセット上の最先端モデルの診断研究を行う。
論文 参考訳(メタデータ) (2023-01-21T03:57:18Z) - On the Structural Generalization in Text-to-SQL [36.56043090037171]
データベーススキーマ(DS)の構造的多様性について検討する。
本稿では,新しいテキスト間構造データを生成するフレームワークを提案する。
合成試料を用いたテキスト・ツー・モデルの評価における顕著な性能低下
論文 参考訳(メタデータ) (2023-01-12T02:52:51Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z) - KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers [26.15889661083109]
実Webデータベースのクロスドメイン評価データセットであるKDBaggleQAを提案する。
我々は、KDBaggleQAが最先端のゼロショットに挑戦していることを示しているが、より現実的な評価設定と関連するデータベースドキュメントの創造的利用により、その正確性は13.2%以上向上している。
論文 参考訳(メタデータ) (2021-06-22T00:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。