Fugu-MT 論文翻訳(概要): CodeS: Towards Building Open-source Language Models for Text-to-SQL

論文の概要: CodeS: Towards Building Open-source Language Models for Text-to-SQL

arxiv url: http://arxiv.org/abs/2402.16347v1
Date: Mon, 26 Feb 2024 07:00:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 14:25:03.951406
Title: CodeS: Towards Building Open-source Language Models for Text-to-SQL
Title（参考訳）: CodeS: テキストからSQLへのオープンソース言語モデルの構築を目指す
Authors: Haoyang Li, Jing Zhang, Hanbing Liu, Ju Fan, Xiaokang Zhang, Jun Zhu, Renjie Wei, Hongyan Pan, Cuiping Li, Hong Chen
Abstract要約: 1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。 CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
参考スコア（独自算出の注目度）: 42.11113113574589
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models have shown promising performance on the task of translating natural language questions into SQL queries (Text-to-SQL). However, most of the state-of-the-art (SOTA) approaches rely on powerful yet closed-source large language models (LLMs), such as ChatGPT and GPT-4, which may have the limitations of unclear model architectures, data privacy risks, and expensive inference overheads. To address the limitations, we introduce CodeS, a series of pre-trained language models with parameters ranging from 1B to 15B, specifically designed for the text-to-SQL task. CodeS is a fully open-source language model, which achieves superior accuracy with much smaller parameter sizes. This paper studies the research challenges in building CodeS. To enhance the SQL generation abilities of CodeS, we adopt an incremental pre-training approach using a specifically curated SQL-centric corpus. Based on this, we address the challenges of schema linking and rapid domain adaptation through strategic prompt construction and a bi-directional data augmentation technique. We conduct comprehensive evaluations on multiple datasets, including the widely used Spider benchmark, the newly released BIRD benchmark, robustness-diagnostic benchmarks such as Spider-DK, Spider-Syn, Spider-Realistic, and Dr.Spider, as well as two real-world datasets created for financial and academic applications. The experimental results show that our CodeS achieves new SOTA accuracy and robustness on nearly all challenging text-to-SQL benchmarks.
Abstract（参考訳）: 言語モデルは、自然言語質問をsqlクエリ(text-to-sql)に変換するタスクで有望なパフォーマンスを示している。しかし、最先端(SOTA)アプローチのほとんどは、ChatGPTやGPT-4のような強力なクローズドソースの大規模言語モデル(LLM)に依存しており、不明瞭なモデルアーキテクチャ、データプライバシのリスク、高価な推論オーバーヘッドの制限がある可能性がある。この制限に対処するため、CodeSは1Bから15Bまでのパラメータを持つ事前訓練された言語モデルであり、特にテキストからSQLタスク用に設計されている。 CodeSは完全なオープンソース言語モデルであり、パラメータサイズがはるかに小さく、精度が優れている。本稿では,CodeS構築における研究課題について考察する。 CodeSのSQL生成能力を高めるために、特別にキュレートされたSQL中心のコーパスを使用して、インクリメンタルな事前学習アプローチを採用する。これに基づいて、戦略的プロンプト構築と双方向データ拡張技術によるスキーマリンクと迅速なドメイン適応の課題に対処する。我々は、広く使われているSpiderベンチマーク、新しくリリースされたBIRDベンチマーク、Spider-DK、Spider-Syn、Spider-Realistic、Dr.Spiderといったロバストネス非依存ベンチマーク、および金融および学術アプリケーション用に作成された2つの現実世界データセットを含む、複数のデータセットに関する包括的な評価を行う。実験の結果,ほぼすべてのテキスト・sqlベンチマークにおいて,新たなsota精度とロバスト性が得られた。

関連論文リスト

OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale [31.852909145101677]
本研究では,大規模で高品質で多様なデータセットを人間の介入なしに自動合成する,新しいスケーラブルなテキスト・データ・フレームワークを提案する。 16,000以上の合成データベースにまたがる250万のサンプルを含む,最初の100万規模のテキスト・データセットであるSyn-2.5Mを紹介した。我々は,7B,14B,32Bの3つのサイズで利用可能な,オープンソースの強力なテキスト・ツー・モデルであるOmniを開発した。
論文参考訳（メタデータ） (2025-03-04T03:30:56Z)
Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文参考訳（メタデータ） (2025-02-16T17:01:48Z)
MCTS-SQL: Light-Weight LLMs can Master the Text-to-SQL through Monte Carlo Tree Search [1.166711394125328]
Text-to-OTAは、NLP領域における基本的な課題である。モンテカルロ木探索を用いた新しいフレームワークMCTS-OTAを提案する。本稿では,反復中に事前情報を格納するトークンレベルのプレフィックスキャッシュ機構を提案する。
論文参考訳（メタデータ） (2025-01-28T00:52:23Z)
Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。 Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。 Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文参考訳（メタデータ） (2024-11-12T12:52:17Z)
Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。 GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-02T17:21:51Z)
Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文参考訳（メタデータ） (2024-08-06T15:40:32Z)
DFIN-SQL: Integrating Focused Schema with DIN-SQL for Superior Accuracy in Large-Scale Databases [0.0]
本稿では,DIN-composed (Decomposed-In-Context) の革新的な拡張であるDFINを紹介する。 DFINは、不正確な主要なソースであるスキーマリンクエラーに対処することで、テキストからコンポジションへの変換を強化する。実世界の挑戦的なベンチマークであるBIRDデータセットの評価では、DFINは効率だけでなく精度も向上し、51.69のスコアが得られた。
論文参考訳（メタデータ） (2024-03-01T07:14:45Z)
Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries [4.141402725050671]
本論文は,テキスト・ツー・システムのデータモデルロバスト性について,実際に評価した最初の事例である。サッカーDBはFIFAワールドカップ2022の文脈で9ヶ月にわたって展開されたシステムである。データはすべて、システムにライブで質問された実際のユーザ質問に基づいています。これらの質問のサブセットを手動でラベル付けし、3つの異なるデータモデルに翻訳しました。
論文参考訳（メタデータ） (2024-02-13T10:28:57Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation [13.196264569882777]
現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
論文参考訳（メタデータ） (2023-05-10T10:01:36Z)
Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL Robustness [115.66421993459663]
近年の研究では、テキスト・ツー・モデルはタスク固有の摂動に弱いことが示されている。モデル診断のための包括的ロバスト性ベンチマークを提案する。我々は、そのセット上の最先端モデルの診断研究を行う。
論文参考訳（メタデータ） (2023-01-21T03:57:18Z)
Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文参考訳（メタデータ） (2022-10-23T09:21:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。