論文の概要: Text2SQL-Flow: A Robust SQL-Aware Data Augmentation Framework for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2511.10192v1
- Date: Fri, 14 Nov 2025 01:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.738698
- Title: Text2SQL-Flow: A Robust SQL-Aware Data Augmentation Framework for Text-to-SQL
- Title(参考訳): Text2SQL-Flow: テキストからSQLへのロバストなSQL対応データ拡張フレームワーク
- Authors: Qifeng Cai, Hao Liang, Chang Xu, Tao Xie, Wentao Zhang, Bin Cui,
- Abstract要約: Text2-Flowは構造対応のデータ拡張フレームワークである。
最小のシードデータから大規模で意味論的に有効な、構造的に多様なテキスト対を生成する。
6つの拡張ディメンションで動作し、エンドツーエンドのパイプラインを統合する。
- 参考スコア(独自算出の注目度): 34.94870867423878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The data-centric paradigm has become pivotal in AI, especially for Text-to-SQL, where performance is limited by scarce, simplistic, and low-diversity datasets. To address this, we propose Text2SQL-Flow, a SQL-aware data augmentation framework that generates large-scale, semantically valid, and structurally diverse Text-to-SQL pairs from minimal seed data. It operates across six augmentation dimensions and integrates an end-to-end pipeline featuring SQL execution verification, natural language question generation, chain-of-thought reasoning traces, and data classification. A modular Database Manager ensures cross-database compatibility and scalability. Using this framework, we build SQLFlow, a high-quality dataset of 89,544 annotated examples. We evaluate SQLFlow in two settings: (1) For open-source LLMs, fine-tuning on SQLFlow consistently improves performance across benchmarks under the same data budget. (2) For closed-source LLMs, we introduce a masked alignment retrieval method that treats SQLFlow as both knowledge base and training data for the retriever. This enables structure-aware example matching by modeling fine-grained alignments between questions and SQL queries. Experiments show our retrieval strategy outperforms existing methods, underscoring the value of SQLFlow's high-fidelity data and our novel technique. Our work establishes a scalable, data-centric foundation for advancing Text-to-SQL systems and highlights the critical role of high-quality structured data in modern AI.
- Abstract(参考訳): データ中心のパラダイムは、特にText-to-SQLでは、不足、単純化、低多様性のデータセットによってパフォーマンスが制限されている。
これを解決するために、最小のシードデータから大規模でセマンティックに有効で、構造的に多様なText-to-SQLペアを生成するSQL対応データ拡張フレームワークであるText2SQL-Flowを提案する。
6つの拡張ディメンションで動作し、SQL実行検証、自然言語質問生成、チェーンオブ思考推論トレース、データ分類を含むエンドツーエンドパイプラインを統合している。
モジュラーデータベースマネージャは、データベース間の互換性とスケーラビリティを保証する。
このフレームワークを使用して、89,544の注釈付きサンプルからなる高品質なデータセットであるSQLFlowを構築します。
1 オープンソースの LLM に対して、SQLFlow の微調整は、同じデータ予算の下で、ベンチマーク全体のパフォーマンスを一貫して改善します。
2) クローズドソース LLM には,SQLFlow を知識ベースと学習データの両方として扱うマスク付きアライメント検索手法を導入する。
これにより、質問とSQLクエリ間のきめ細かいアライメントをモデル化することで、構造対応のサンプルマッチングが可能になる。
実験により,SQLFlowの高忠実度データの価値と新しい手法を実証し,既存の手法よりも優れた検索戦略を示す。
私たちの研究は、Text-to-SQLシステムの進化のためのスケーラブルでデータ中心の基盤を確立し、現代のAIにおける高品質な構造化データの重要性を強調します。
関連論文リスト
- CogniSQL-R1-Zero: Lightweight Reinforced Reasoning for Efficient SQL Generation [1.169202600932732]
本稿では,強化学習(RL)フレームワークとモデルであるCogni-R1-Zeroを紹介する。
我々は、実行の正しさとフォーマットタグのコンプライアンスに基づく軽量な報酬信号を使用する。
提案手法は,Text2ベンチマーク上での最先端実行精度を実現する。
効率的かつ解釈可能なテキスト・ツー・コード・モデリングのさらなる研究を支援するために、2つのキュレートされたデータセットをリリースする。
論文 参考訳(メタデータ) (2025-07-08T14:17:07Z) - OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale [31.852909145101677]
本研究では,大規模で高品質で多様なデータセットを人間の介入なしに自動合成する,新しいスケーラブルなテキスト・データ・フレームワークを提案する。
16,000以上の合成データベースにまたがる250万のサンプルを含む,最初の100万規模のテキスト・データセットであるSyn-2.5Mを紹介した。
我々は,7B,14B,32Bの3つのサイズで利用可能な,オープンソースの強力なテキスト・ツー・モデルであるOmniを開発した。
論文 参考訳(メタデータ) (2025-03-04T03:30:56Z) - Text-to-SQL Domain Adaptation via Human-LLM Collaborative Data Annotation [26.834687657847454]
テキスト-to-sqlモデルは、現実世界のアプリケーションでますます採用されている。
このようなモデルを現実世界にデプロイするには、特定のアプリケーションで使用される高度に専門化されたデータベーススキーマにそれらを適用する必要があることが多い。
既存のtext-to-sqlモデルは、新しいスキーマに適用した場合、大幅なパフォーマンス低下を経験する。
スキーマの進化のための高品質なテキスト間データを継続的に取得することは、現実世界のシナリオでは違法に高価である。
論文 参考訳(メタデータ) (2025-02-21T22:32:35Z) - SQL-GEN: Bridging the Dialect Gap for Text-to-SQL Via Synthetic Data And Model Merging [30.306023265985658]
あらゆる方言に対して高品質な合成学習データを生成するためのフレームワークを提案する。
本稿では,方言間の共有知識を活用する新しいMixture-of-Experts(MoE)を提案する。
論文 参考訳(メタデータ) (2024-08-22T20:50:48Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。