論文の概要: SQLBarber: A System Leveraging Large Language Models to Generate Customized and Realistic SQL Workloads
- arxiv url: http://arxiv.org/abs/2507.06192v1
- Date: Tue, 08 Jul 2025 17:20:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.364048
- Title: SQLBarber: A System Leveraging Large Language Models to Generate Customized and Realistic SQL Workloads
- Title(参考訳): SQLBarber: カスタマイズされた現実的なSQLワークロードを生成するために、大規模な言語モデルを活用するシステム
- Authors: Jiale Lao, Immanuel Trummer,
- Abstract要約: sqlBarberはLarge Language Models(LLM)に基づくシステムで、カスタマイズされたリアルなsqlワークロードを生成する。
クエリ生成時間を1~3桁に短縮し、ターゲットのコスト分布との整合性を大幅に改善する。
我々は、SnowflakeとAmazon Redshiftの実際の統計に基づいて、さまざまな難易度とクエリコスト分布の10のベンチマークを構築し、オープンソース化する。
- 参考スコア(独自算出の注目度): 18.665946271507117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Database research and development often require a large number of SQL queries for benchmarking purposes. However, acquiring real-world SQL queries is challenging due to privacy concerns, and existing SQL generation methods are limited in customization and in satisfying realistic constraints. To address this issue, we present SQLBarber, a system based on Large Language Models (LLMs) to generate customized and realistic SQL workloads. SQLBarber (i) eliminates the need for users to manually craft SQL templates in advance, while providing the flexibility to accept natural language specifications to constrain SQL templates, (ii) scales efficiently to generate large volumes of queries matching any user-defined cost distribution (e.g., cardinality and execution plan cost), and (iii) uses execution statistics from Amazon Redshift and Snowflake to derive SQL template specifications and query cost distributions that reflect real-world query characteristics. SQLBarber introduces (i) a declarative interface for users to effortlessly generate customized SQL templates, (ii) an LLM-powered pipeline augmented with a self-correction module that profiles, refines, and prunes SQL templates based on query costs, and (iii) a Bayesian Optimizer to efficiently explore different predicate values and identify a set of queries that satisfy the target cost distribution. We construct and open-source ten benchmarks of varying difficulty levels and target query cost distributions based on real-world statistics from Snowflake and Amazon Redshift. Extensive experiments on these benchmarks show that SQLBarber is the only system that can generate customized SQL templates. It reduces query generation time by one to three orders of magnitude, and significantly improves alignment with the target cost distribution, compared with existing methods.
- Abstract(参考訳): データベースの研究と開発は、しばしばベンチマークのために大量のSQLクエリを必要とする。
しかし、プライバシの懸念から現実のSQLクエリの取得は困難であり、既存のSQL生成メソッドはカスタマイズや現実的な制約を満たすのに限られている。
この問題に対処するため、我々はLarge Language Models(LLMs)に基づくシステムであるSQLBarberを紹介し、カスタマイズされた現実的なSQLワークロードを生成する。
SQLBarber
i) ユーザが事前にSQLテンプレートを手作業で作成する必要をなくし、SQLテンプレートを制約する自然言語仕様を受け入れる柔軟性を提供する。
(ii) ユーザ定義のコスト分布(例えば、濃度と実行計画コスト)に適合する大量のクエリを生成するため、効率よくスケールする。
(iii) Amazon RedshiftとSnowflakeによる実行統計を利用して、現実のクエリ特性を反映したSQLテンプレート仕様とクエリコスト分布を導出する。
SQLBarberが導入
(i) ユーザが自由にカスタマイズされたSQLテンプレートを生成するための宣言型インターフェース。
(ii)クエリコストに基づいてSQLテンプレートをプロファイルし、洗練し、プーンする自己補正モジュールを備えたLLM駆動パイプライン。
3 ベイズ最適化器は、異なる述語値を効率的に探索し、対象のコスト分布を満たすクエリの集合を識別する。
我々は、SnowflakeとAmazon Redshiftの実際の統計に基づいて、さまざまな難易度とクエリコスト分布の10のベンチマークを構築し、オープンソース化する。
これらのベンチマークに関する大規模な実験は、SQLBarberがカスタマイズされたSQLテンプレートを生成できる唯一のシステムであることを示している。
クエリ生成時間を1~3桁に短縮し、既存の方法と比較して目標コスト分布との整合性を大幅に改善する。
関連論文リスト
- HI-SQL: Optimizing Text-to-SQL Systems through Dynamic Hint Integration [1.3927943269211591]
テキスト・ツー・ジェネレーションは自然言語とデータベースのギャップを埋め、ユーザーは専門知識を必要とせずにデータをクエリできる。
履歴クエリログを利用した新しいヒント生成機構を組み込んだパイプラインHI-theを提案する。
先行クエリを解析することにより、マルチテーブルおよびネストされた操作の複雑さを扱うことに焦点を当てたコンテキストヒントを生成する。
提案手法は,LCM生成クエリのクエリ精度を大幅に向上し,呼び出しやレイテンシの面で効率性を確保した。
論文 参考訳(メタデータ) (2025-06-11T12:07:55Z) - Query and Conquer: Execution-Guided SQL Generation [2.07180164747172]
本稿では,テキスト・ツー・タスクの精度を大幅に向上させる複雑な出力を生成する新しい手法を提案する。
提案手法は,複数の候補から最もセマンティックに一貫性のあるクエリを選択するために,実行結果を活用する。
論文 参考訳(メタデータ) (2025-03-31T17:43:36Z) - STaR-SQL: Self-Taught Reasoner for Text-to-SQL [20.719165038519744]
チェーンオブ思考」の理論的根拠は、複雑な推論タスクにおける大規模言語モデルの性能向上に有効であることが証明されている。
テキスト駆動のような構造化されたタスクにそのようなテクニックを適用することは、ほとんど探索されていない。
本稿では、クエリ生成を推論プロセスとして再編成する新しいアプローチである、テキスト駆動型セルフトレーサ(STaR-)を提案する。
挑戦的なスパイダーベンチマークの実験結果によると、STaR-はテキストからパフォーマンスを大幅に改善し、86.6%の精度を実現している。
これらの知見は、推論強化トレーニングの可能性を強調している。
論文 参考訳(メタデータ) (2025-02-19T08:58:44Z) - MCTS-SQL: An Effective Framework for Text-to-SQL with Monte Carlo Tree Search [3.521199751827158]
本稿では,自然言語クエリをデータベースクエリに変換する新しい手法を提案する。
我々はモンテカルロ木探索(MCTS)と自己精製機構を用いて精度と信頼性を向上させる。
実験の結果,MCTS-IDERは最先端の性能を達成できた。
論文 参考訳(メタデータ) (2025-01-28T00:52:23Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。
特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。
私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。