論文の概要: CodeS: Towards Building Open-source Language Models for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2402.16347v1
- Date: Mon, 26 Feb 2024 07:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:25:03.951406
- Title: CodeS: Towards Building Open-source Language Models for Text-to-SQL
- Title(参考訳): CodeS: テキストからSQLへのオープンソース言語モデルの構築を目指す
- Authors: Haoyang Li, Jing Zhang, Hanbing Liu, Ju Fan, Xiaokang Zhang, Jun Zhu,
Renjie Wei, Hongyan Pan, Cuiping Li, Hong Chen
- Abstract要約: 1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
- 参考スコア(独自算出の注目度): 42.11113113574589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models have shown promising performance on the task of translating
natural language questions into SQL queries (Text-to-SQL). However, most of the
state-of-the-art (SOTA) approaches rely on powerful yet closed-source large
language models (LLMs), such as ChatGPT and GPT-4, which may have the
limitations of unclear model architectures, data privacy risks, and expensive
inference overheads. To address the limitations, we introduce CodeS, a series
of pre-trained language models with parameters ranging from 1B to 15B,
specifically designed for the text-to-SQL task. CodeS is a fully open-source
language model, which achieves superior accuracy with much smaller parameter
sizes. This paper studies the research challenges in building CodeS. To enhance
the SQL generation abilities of CodeS, we adopt an incremental pre-training
approach using a specifically curated SQL-centric corpus. Based on this, we
address the challenges of schema linking and rapid domain adaptation through
strategic prompt construction and a bi-directional data augmentation technique.
We conduct comprehensive evaluations on multiple datasets, including the widely
used Spider benchmark, the newly released BIRD benchmark, robustness-diagnostic
benchmarks such as Spider-DK, Spider-Syn, Spider-Realistic, and Dr.Spider, as
well as two real-world datasets created for financial and academic
applications. The experimental results show that our CodeS achieves new SOTA
accuracy and robustness on nearly all challenging text-to-SQL benchmarks.
- Abstract(参考訳): 言語モデルは、自然言語質問をsqlクエリ(text-to-sql)に変換するタスクで有望なパフォーマンスを示している。
しかし、最先端(SOTA)アプローチのほとんどは、ChatGPTやGPT-4のような強力なクローズドソースの大規模言語モデル(LLM)に依存しており、不明瞭なモデルアーキテクチャ、データプライバシのリスク、高価な推論オーバーヘッドの制限がある可能性がある。
この制限に対処するため、CodeSは1Bから15Bまでのパラメータを持つ事前訓練された言語モデルであり、特にテキストからSQLタスク用に設計されている。
CodeSは完全なオープンソース言語モデルであり、パラメータサイズがはるかに小さく、精度が優れている。
本稿では,CodeS構築における研究課題について考察する。
CodeSのSQL生成能力を高めるために、特別にキュレートされたSQL中心のコーパスを使用して、インクリメンタルな事前学習アプローチを採用する。
これに基づいて、戦略的プロンプト構築と双方向データ拡張技術によるスキーマリンクと迅速なドメイン適応の課題に対処する。
我々は、広く使われているSpiderベンチマーク、新しくリリースされたBIRDベンチマーク、Spider-DK、Spider-Syn、Spider-Realistic、Dr.Spiderといったロバストネス非依存ベンチマーク、および金融および学術アプリケーション用に作成された2つの現実世界データセットを含む、複数のデータセットに関する包括的な評価を行う。
実験の結果,ほぼすべてのテキスト・sqlベンチマークにおいて,新たなsota精度とロバスト性が得られた。
関連論文リスト
- Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。
Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。
Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文 参考訳(メタデータ) (2024-11-12T12:52:17Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - DFIN-SQL: Integrating Focused Schema with DIN-SQL for Superior Accuracy
in Large-Scale Databases [0.0]
本稿では,DIN-composed (Decomposed-In-Context) の革新的な拡張であるDFINを紹介する。
DFINは、不正確な主要なソースであるスキーマリンクエラーに対処することで、テキストからコンポジションへの変換を強化する。
実世界の挑戦的なベンチマークであるBIRDデータセットの評価では、DFINは効率だけでなく精度も向上し、51.69のスコアが得られた。
論文 参考訳(メタデータ) (2024-03-01T07:14:45Z) - Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries [4.141402725050671]
本論文は,テキスト・ツー・システムのデータモデルロバスト性について,実際に評価した最初の事例である。
サッカーDBはFIFAワールドカップ2022の文脈で9ヶ月にわたって展開されたシステムである。
データはすべて、システムにライブで質問された実際のユーザ質問に基づいています。これらの質問のサブセットを手動でラベル付けし、3つの異なるデータモデルに翻訳しました。
論文 参考訳(メタデータ) (2024-02-13T10:28:57Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation [13.196264569882777]
現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。
本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
論文 参考訳(メタデータ) (2023-05-10T10:01:36Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。