Fugu-MT 論文翻訳(概要): OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale

論文の概要: OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale

arxiv url: http://arxiv.org/abs/2503.02240v1
Date: Tue, 04 Mar 2025 03:30:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:39.008548
Title: OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale
Title（参考訳）: OmniSQL: 高品質のテキスト-SQLデータを大規模に合成する
Authors: Haoyang Li, Shang Wu, Xiaokang Zhang, Xinmei Huang, Jing Zhang, Fuxin Jiang, Shuai Wang, Tieying Zhang, Jianjun Chen, Rui Shi, Hong Chen, Cuiping Li,
Abstract要約: 本研究では,大規模で高品質で多様なデータセットを人間の介入なしに自動合成する,新しいスケーラブルなテキスト・データ・フレームワークを提案する。 16,000以上の合成データベースにまたがる250万のサンプルを含む,最初の100万規模のテキスト・データセットであるSyn-2.5Mを紹介した。我々は,7B,14B,32Bの3つのサイズで利用可能な,オープンソースの強力なテキスト・ツー・モデルであるOmniを開発した。
参考スコア（独自算出の注目度）: 31.852909145101677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-SQL, the task of translating natural language questions into SQL queries, plays a crucial role in enabling non-experts to interact with databases. While recent advancements in large language models (LLMs) have significantly enhanced text-to-SQL performance, existing approaches face notable limitations in real-world text-to-SQL applications. Prompting-based methods often depend on closed-source LLMs, which are expensive, raise privacy concerns, and lack customization. Fine-tuning-based methods, on the other hand, suffer from poor generalizability due to the limited coverage of publicly available training data. To overcome these challenges, we propose a novel and scalable text-to-SQL data synthesis framework for automatically synthesizing large-scale, high-quality, and diverse datasets without extensive human intervention. Using this framework, we introduce SynSQL-2.5M, the first million-scale text-to-SQL dataset, containing 2.5 million samples spanning over 16,000 synthetic databases. Each sample includes a database, SQL query, natural language question, and chain-of-thought (CoT) solution. Leveraging SynSQL-2.5M, we develop OmniSQL, a powerful open-source text-to-SQL model available in three sizes: 7B, 14B, and 32B. Extensive evaluations across nine datasets demonstrate that OmniSQL achieves state-of-the-art performance, matching or surpassing leading closed-source and open-source LLMs, including GPT-4o and DeepSeek-V3, despite its smaller size. We release all code, datasets, and models to support further research.
Abstract（参考訳）: 自然言語の質問をSQLクエリに変換するタスクであるText-to-SQLは、非専門家がデータベースと対話できるようにする上で重要な役割を果たす。大規模言語モデル(LLM)の最近の進歩は、テキスト-SQLのパフォーマンスを著しく向上させているが、既存のアプローチは、現実世界のテキスト-SQLアプリケーションで顕著な制限に直面している。プロンプトベースの手法は、しばしば、高価でプライバシーの懸念を高め、カスタマイズを欠くクローズドソースのLCMに依存する。一方、ファインチューニングに基づく手法は、一般公開されたトレーニングデータの範囲が限られているため、一般化性に乏しい。これらの課題を克服するために、大規模で高品質で多様なデータセットを人間の介入なしに自動的に合成する、新しいスケーラブルなテキスト-SQLデータ合成フレームワークを提案する。このフレームワークを使用して、16,000以上の合成データベースにまたがる250万のサンプルを含む、最初の100万スケールのテキスト-SQLデータセットであるSynSQL-2.5Mを紹介した。各サンプルにはデータベース、SQLクエリ、自然言語質問、チェーン・オブ・シークレット(CoT)ソリューションが含まれている。 SynSQL-2.5Mを活用して,7B,14B,32Bという3つのサイズで利用可能な,オープンソースの強力なテキスト-SQLモデルであるOmniSQLを開発した。 9つのデータセットにわたる大規模な評価によると、OmniSQLは、サイズが小さいにも関わらず、GPT-4oやDeepSeek-V3など、主要なクローズドソースおよびオープンソースLLMにマッチまたは超える、最先端のパフォーマンスを実現している。さらなる研究をサポートするために、すべてのコード、データセット、モデルをリリースしています。

関連論文リスト

Text-to-SQL Domain Adaptation via Human-LLM Collaborative Data Annotation [26.834687657847454]
テキスト-to-sqlモデルは、現実世界のアプリケーションでますます採用されている。このようなモデルを現実世界にデプロイするには、特定のアプリケーションで使用される高度に専門化されたデータベーススキーマにそれらを適用する必要があることが多い。既存のtext-to-sqlモデルは、新しいスキーマに適用した場合、大幅なパフォーマンス低下を経験する。スキーマの進化のための高品質なテキスト間データを継続的に取得することは、現実世界のシナリオでは違法に高価である。
論文参考訳（メタデータ） (2025-02-21T22:32:35Z)
Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文参考訳（メタデータ） (2025-02-16T17:01:48Z)
Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。 Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。 Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文参考訳（メタデータ） (2024-11-12T12:52:17Z)
MSc-SQL: Multi-Sample Critiquing Small Language Models For Text-To-SQL Translation [10.205010004198757]
テキスト・ツー・ジェネレーションは、非専門家が自然言語でデータベースと対話することを可能にする。 GPT-4のような大規模クローズドソースモデルの最近の進歩は、アクセシビリティ、プライバシ、レイテンシの課題を提示している。我々は、小型で効率的でオープンソースのテキスト・ツー・ジェネレーション・モデルの開発に注力する。
論文参考訳（メタデータ） (2024-10-16T18:03:24Z)
A Survey of Text-to-SQL in the Era of LLMs: Where are we, and where are we going? [32.84561352339466]
我々は,Large Language Models (LLMs) を利用したテキスト翻訳技術についてレビューする。 LLM時代におけるテキスト・ツー・アセスメントの研究課題とオープンな課題について論じる。
論文参考訳（メタデータ） (2024-08-09T14:59:36Z)
CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。 CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文参考訳（メタデータ） (2024-02-26T07:00:58Z)
Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries [5.8226163227899645]
本論文は,テキスト・ツー・システムのデータモデルロバスト性について,実際に評価した最初の事例である。サッカーDBはFIFAワールドカップ2022の文脈で9ヶ月にわたって展開されたシステムである。データはすべて、システムにライブで質問された実際のユーザ質問に基づいています。これらの質問のサブセットを手動でラベル付けし、3つの異なるデータモデルに翻訳しました。
論文参考訳（メタデータ） (2024-02-13T10:28:57Z)
MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [47.120862170230566]
最近のText-to-Yourselfメソッドは通常、"巨大な"データベース上での大幅なパフォーマンス劣化に悩まされる。我々は,新しいテキスト・ツー・ユー・セルフ LLM ベースのマルチエージェント協調フレームワーク MAC を紹介する。我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。次に、Code 7Bを活用することで、オープンソースの命令フォローモデルであるsql-Llamaを微調整し、GPT-4のように全てのタスクを達成します。
論文参考訳（メタデータ） (2023-12-18T14:40:20Z)
SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。 Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。 emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文参考訳（メタデータ） (2023-11-06T05:24:06Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文参考訳（メタデータ） (2023-05-04T19:02:29Z)
A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文参考訳（メタデータ） (2022-08-29T14:24:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。