論文の概要: SING-SQL: A Synthetic Data Generation Framework for In-Domain Text-to-SQL Translation
- arxiv url: http://arxiv.org/abs/2509.25672v1
- Date: Tue, 30 Sep 2025 02:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.394145
- Title: SING-SQL: A Synthetic Data Generation Framework for In-Domain Text-to-SQL Translation
- Title(参考訳): SING-SQL: ドメイン内テキスト-SQL翻訳のための合成データ生成フレームワーク
- Authors: Hasan Alp Caferoğlu, Mehmet Serhat Çelik, Özgür Ulusoy,
- Abstract要約: SING-aは、高品質で高カバレッジな合成テキストデータを生成するための、完全に自動化された2段階のフレームワークである。
SING-LMは、合成データに基づいて微調整されたコンパクト言語モデルのファミリーである。
- 参考スコア(独自算出の注目度): 2.0799061948689306
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Translating natural language questions into SQL has become a core challenge in enabling non-technical users to query databases. While recent work has explored large-scale synthetic data generation to improve model performance through post-training, most efforts emphasize cross-domain generalization. This leaves a gap for real-world enterprise scenarios, where models need to specialize to a single database schema and organizations require to be able to evaluate their Text-to-SQL systems on their own databases. To address this, we introduce SING-SQL, a fully automated two-stage framework for generating high-quality, high-coverage synthetic Text-to-SQL data for any target database, without relying on SQL logs or manual annotations. Our approach hierarchically partitions a database schema into sub-schemas, synthesizes SQL queries across multiple complexity levels, and applies a quality-aware pipeline that includes LLM-as-a-judge validation, executability checks, automatic repair, and column balancing. We further release SingSQL-LM, a family of compact language models fine-tuned on the synthetic data, achieving strong in-domain generalization. On the subset of the BIRD benchmark, SingSQL-LM-3B-R64 reaches 82.87% Soft F1 and 73.03% EX upper bound with 32 candidates, outperforming the best 3B-scale baseline by +16.21 in Soft F1 and +12.36 in EX. At the 1.5B scale, SingSQL-LM-1.5B-R64 improves over prior systems by +9.30 in Soft F1 and +4.49 in EX. On synthetic evaluation sets, SingSQL-LMs exceed prior systems by wide margins, establishing state-of-the-art performance among open models at comparable scales. Our study of context management strategies reveals that schema-free fine-tuning combined with schema-only inference provides the most robust results. These findings establish SING-SQL as a scalable, database-agnostic paradigm for producing and evaluating enterprise-grade Text-to-SQL systems.
- Abstract(参考訳): 自然言語の質問をSQLに翻訳することは、非技術者のユーザがデータベースをクエリできるようにする上で、大きな課題となっている。
最近の研究は、学習後のモデル性能を改善するために大規模な合成データ生成を探求しているが、ほとんどの取り組みはドメイン間の一般化を強調している。
モデルが単一のデータベーススキーマに特化する必要があるし、組織が自身のデータベース上でText-to-SQLシステムを評価する必要がある。
これを解決するために、私たちは、SQLログや手動のアノテーションに頼ることなく、あらゆるターゲットデータベースに対して高品質で高カバレッジのテキスト-SQLデータを生成するための、完全に自動化された2段階フレームワークであるSING-SQLを紹介します。
このアプローチでは、データベーススキーマをサブスキーマに階層的に分割し、複数の複雑性レベルにわたってSQLクエリを合成し、LCM-as-a-judgeバリデーション、実行可能性チェック、自動修復、カラムバランスを含む品質に配慮したパイプラインを適用します。
我々はさらに、合成データに基づいて微調整されたコンパクト言語モデルのファミリーであるSingSQL-LMをリリースし、強力なドメイン内一般化を実現する。
BIRDベンチマークのサブセットでは、SingSQL-LM-3B-R64は82.87%のソフトF1と73.03%のオーバーバウンドを持ち、32の候補を持つ。
1.5Bスケールでは、SingSQL-LM-1.5B-R64は、Soft F1では+9.30、EXでは+4.49に改善されている。
合成評価セットでは、SingSQL-LMは従来のシステムよりも広いマージンで、同等のスケールでオープンモデル間の最先端の性能を確立する。
我々の文脈管理戦略の研究は、スキーマフリーな微調整とスキーマオンリーの推論を組み合わせることで、最も堅牢な結果が得られることを示している。
これらの知見は、エンタープライズグレードのText-to-SQLシステムの開発と評価のためのスケーラブルでデータベースに依存しないパラダイムとしてSING-SQLを確立している。
関連論文リスト
- DB-Explore: Automated Database Exploration and Instruction Synthesis for Text-to-SQL [18.915121803834698]
大規模言語モデルとデータベースの知識を体系的に整合させる新しいフレームワークであるDB-Exploreを提案する。
我々のフレームワークは、多様なサンプリング戦略と自動命令生成を通じて、包括的なデータベース理解を可能にする。
論文 参考訳(メタデータ) (2025-03-06T20:46:43Z) - OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale [31.852909145101677]
本研究では,大規模で高品質で多様なデータセットを人間の介入なしに自動合成する,新しいスケーラブルなテキスト・データ・フレームワークを提案する。
16,000以上の合成データベースにまたがる250万のサンプルを含む,最初の100万規模のテキスト・データセットであるSyn-2.5Mを紹介した。
我々は,7B,14B,32Bの3つのサイズで利用可能な,オープンソースの強力なテキスト・ツー・モデルであるOmniを開発した。
論文 参考訳(メタデータ) (2025-03-04T03:30:56Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL [47.120862170230566]
最近のText-to-Yourselfメソッドは通常、"巨大な"データベース上での大幅なパフォーマンス劣化に悩まされる。
我々は,新しいテキスト・ツー・ユー・セルフ LLM ベースのマルチエージェント協調フレームワーク MAC を紹介する。
我々のフレームワークでは、GPT-4を全てのエージェントタスクの強力なバックボーンとして利用し、フレームワークの上限を決定する。
次に、Code 7Bを活用することで、オープンソースの命令フォローモデルであるsql-Llamaを微調整し、GPT-4のように全てのタスクを達成します。
論文 参考訳(メタデータ) (2023-12-18T14:40:20Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。