論文の概要: SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas
- arxiv url: http://arxiv.org/abs/2602.22223v1
- Date: Tue, 16 Dec 2025 09:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.687598
- Title: SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas
- Title(参考訳): SQaLe: リアルタイムスキーマを基盤とした大規模テキストからSQLのコーパス
- Authors: Cornelius Wolff, Daniel Gomm, Madelon Hulsebos,
- Abstract要約: テキスト・ツー・ハブ・モデルを開発する上でのボトルネックは、十分なスキーマとクエリの複雑さ、ドメインカバレッジ、タスクの多様性を備えた大規模なデータセットが不足していることだ。
実世界のスキーマコレクションであるPileから拡張された135,875のリレーショナルデータベーススキーマ上に構築された,大規模半合成のテキスト・ツー・ハグデータセットであるSQaLeを紹介した。
SQaLeは実行の妥当性を維持しながら、現実的なスキーマサイズ、多様なクエリパターン、自然言語の曖昧さをキャプチャする。
- 参考スコア(独自算出の注目度): 2.905751301655124
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Advances in large language models have accelerated progress in text-to-SQL, methods for converting natural language queries into valid SQL queries. A key bottleneck for developing generalizable text-to-SQL models is the lack of large-scale datasets with sufficient schema and query complexity, domain coverage, and task diversity. We introduce SQaLe: a large-scale semi-synthetic text-to-SQL dataset built on 135,875 relational database schemas expanded from a collection of real-world schemas, SchemaPile. We establish a principled generation pipeline which combines schema sampling, question synthesis, and SQL construction, and produce 517,676 high-quality (question, schema, query) triples. The SQaLe dataset captures realistic schema size variability, diverse query patterns, and natural language ambiguity while maintaining execution validity. We provide an analysis of its contents and characteristics, and find that SQaLe introduces the most realistic large-scale text-to-SQL dataset to date in comparison with existing benchmarks and datasets. We discuss how SQaLe enables our vision for data scaling and model generalization in text-to-SQL research. The dataset is accessible at: https://huggingface.co/datasets/trl-lab/SQaLe-text-to-SQL-dataset.
- Abstract(参考訳): 大規模言語モデルの進歩は、自然言語クエリを有効なSQLクエリに変換するメソッドであるtext-to-SQLの進歩を加速している。
一般化可能なテキスト-SQLモデルを開発する上で重要なボトルネックは、十分なスキーマとクエリの複雑さ、ドメインカバレッジ、タスクの多様性を備えた大規模データセットの欠如である。
我々はSQaLeを紹介した。SQaLeは135,875のリレーショナルデータベーススキーマ上に構築され、実世界のスキーマの集合であるSchemaPileから拡張された大規模半合成のテキスト-SQLデータセットである。
我々は,スキーマサンプリング,質問合成,SQL構築を組み合わせた基本生成パイプラインを構築し,高品質(クエリ,スキーマ,クエリ)を517,676個生成する。
SQaLeデータセットは、実行の妥当性を維持しながら、現実的なスキーマサイズ、多様なクエリパターン、自然言語の曖昧さをキャプチャする。
我々は、その内容と特徴の分析を行い、SQaLeが既存のベンチマークやデータセットと比較して、これまでで最も現実的な大規模テキスト-SQLデータセットを導入していることを確認した。
我々は,SQaLeがテキスト-SQL研究におけるデータスケーリングとモデル一般化のビジョンを実現する方法について論じる。
データセットは、https://huggingface.co/datasets/trl-lab/SQaLe-text-to-SQL-datasetでアクセスできる。
関連論文リスト
- RingSQL: Generating Synthetic Data with Schema-Independent Templates for Text-to-SQL Reasoning Models [1.0062127381149395]
Ringは、スキーマに依存しないクエリテンプレートとLLMベースの自然言語質問のパラフレーズを組み合わせたハイブリッドデータ生成フレームワークである。
我々は、Ringによってトレーニングされたモデルが、他の合成データでトレーニングされたモデルと比較して、6つのテキスト間ベンチマークの平均精度+2.3%に達することを発見した。
論文 参考訳(メタデータ) (2026-01-09T00:46:53Z) - EvolSQL: Structure-Aware Evolution for Scalable Text-to-SQL Data Synthesis [25.689983072200047]
Evolは、クエリをよりリッチでセマンティックに多様な形式に進化させる構造対応のデータ合成フレームワークである。
7Bモデルは、データの1/18のみを使用して、はるかに大きなSynデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2026-01-08T12:19:50Z) - Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification [50.59009084277447]
論理生成からスキーマ要素の検索を分離するフレームワークUNJOINを紹介する。
最初の段階では、各列をテーブル名でプレフィックスすることで、データベース内のすべてのテーブルの列名を単一のテーブル表現にマージします。
第2段階では、クエリは、この単純化されたスキーマに基づいて生成され、JOIN、UNION、リレーショナルロジックを再構築することで、元のスキーマにマップされる。
論文 参考訳(メタデータ) (2025-05-23T17:28:43Z) - OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale [31.852909145101677]
本研究では,大規模で高品質で多様なデータセットを人間の介入なしに自動合成する,新しいスケーラブルなテキスト・データ・フレームワークを提案する。
16,000以上の合成データベースにまたがる250万のサンプルを含む,最初の100万規模のテキスト・データセットであるSyn-2.5Mを紹介した。
我々は,7B,14B,32Bの3つのサイズで利用可能な,オープンソースの強力なテキスト・ツー・モデルであるOmniを開発した。
論文 参考訳(メタデータ) (2025-03-04T03:30:56Z) - Text-to-SQL Domain Adaptation via Human-LLM Collaborative Data Annotation [26.834687657847454]
テキスト-to-sqlモデルは、現実世界のアプリケーションでますます採用されている。
このようなモデルを現実世界にデプロイするには、特定のアプリケーションで使用される高度に専門化されたデータベーススキーマにそれらを適用する必要があることが多い。
既存のtext-to-sqlモデルは、新しいスキーマに適用した場合、大幅なパフォーマンス低下を経験する。
スキーマの進化のための高品質なテキスト間データを継続的に取得することは、現実世界のシナリオでは違法に高価である。
論文 参考訳(メタデータ) (2025-02-21T22:32:35Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton
Retrieval [17.747079214502673]
Text-to-は、自然言語の質問を構造化されたクエリ言語()に変換し、データベースから情報を取得するタスクである。
本稿では,テキスト・トゥ・テキストのための LLM ベースのフレームワークを提案する。
我々は,疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似した例を検索する。
論文 参考訳(メタデータ) (2023-04-26T06:02:01Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。