Fugu-MT 論文翻訳(概要): SQLBarber: A System Leveraging Large Language Models to Generate Customized and Realistic SQL Workloads

論文の概要: SQLBarber: A System Leveraging Large Language Models to Generate Customized and Realistic SQL Workloads

arxiv url: http://arxiv.org/abs/2507.06192v1
Date: Tue, 08 Jul 2025 17:20:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:38.364048
Title: SQLBarber: A System Leveraging Large Language Models to Generate Customized and Realistic SQL Workloads
Title（参考訳）: SQLBarber: カスタマイズされた現実的なSQLワークロードを生成するために、大規模な言語モデルを活用するシステム
Authors: Jiale Lao, Immanuel Trummer,
Abstract要約: sqlBarberはLarge Language Models(LLM)に基づくシステムで、カスタマイズされたリアルなsqlワークロードを生成する。クエリ生成時間を1～3桁に短縮し、ターゲットのコスト分布との整合性を大幅に改善する。我々は、SnowflakeとAmazon Redshiftの実際の統計に基づいて、さまざまな難易度とクエリコスト分布の10のベンチマークを構築し、オープンソース化する。
参考スコア（独自算出の注目度）: 18.665946271507117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Database research and development often require a large number of SQL queries for benchmarking purposes. However, acquiring real-world SQL queries is challenging due to privacy concerns, and existing SQL generation methods are limited in customization and in satisfying realistic constraints. To address this issue, we present SQLBarber, a system based on Large Language Models (LLMs) to generate customized and realistic SQL workloads. SQLBarber (i) eliminates the need for users to manually craft SQL templates in advance, while providing the flexibility to accept natural language specifications to constrain SQL templates, (ii) scales efficiently to generate large volumes of queries matching any user-defined cost distribution (e.g., cardinality and execution plan cost), and (iii) uses execution statistics from Amazon Redshift and Snowflake to derive SQL template specifications and query cost distributions that reflect real-world query characteristics. SQLBarber introduces (i) a declarative interface for users to effortlessly generate customized SQL templates, (ii) an LLM-powered pipeline augmented with a self-correction module that profiles, refines, and prunes SQL templates based on query costs, and (iii) a Bayesian Optimizer to efficiently explore different predicate values and identify a set of queries that satisfy the target cost distribution. We construct and open-source ten benchmarks of varying difficulty levels and target query cost distributions based on real-world statistics from Snowflake and Amazon Redshift. Extensive experiments on these benchmarks show that SQLBarber is the only system that can generate customized SQL templates. It reduces query generation time by one to three orders of magnitude, and significantly improves alignment with the target cost distribution, compared with existing methods.
Abstract（参考訳）: データベースの研究と開発は、しばしばベンチマークのために大量のSQLクエリを必要とする。しかし、プライバシの懸念から現実のSQLクエリの取得は困難であり、既存のSQL生成メソッドはカスタマイズや現実的な制約を満たすのに限られている。この問題に対処するため、我々はLarge Language Models(LLMs)に基づくシステムであるSQLBarberを紹介し、カスタマイズされた現実的なSQLワークロードを生成する。 SQLBarber i) ユーザが事前にSQLテンプレートを手作業で作成する必要をなくし、SQLテンプレートを制約する自然言語仕様を受け入れる柔軟性を提供する。 (ii) ユーザ定義のコスト分布(例えば、濃度と実行計画コスト)に適合する大量のクエリを生成するため、効率よくスケールする。 (iii) Amazon RedshiftとSnowflakeによる実行統計を利用して、現実のクエリ特性を反映したSQLテンプレート仕様とクエリコスト分布を導出する。 SQLBarberが導入 (i) ユーザが自由にカスタマイズされたSQLテンプレートを生成するための宣言型インターフェース。 (ii)クエリコストに基づいてSQLテンプレートをプロファイルし、洗練し、プーンする自己補正モジュールを備えたLLM駆動パイプライン。 3 ベイズ最適化器は、異なる述語値を効率的に探索し、対象のコスト分布を満たすクエリの集合を識別する。我々は、SnowflakeとAmazon Redshiftの実際の統計に基づいて、さまざまな難易度とクエリコスト分布の10のベンチマークを構築し、オープンソース化する。これらのベンチマークに関する大規模な実験は、SQLBarberがカスタマイズされたSQLテンプレートを生成できる唯一のシステムであることを示している。クエリ生成時間を1～3桁に短縮し、既存の方法と比較して目標コスト分布との整合性を大幅に改善する。

関連論文リスト

Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文参考訳（メタデータ） (2025-11-26T13:52:50Z)
From Queries to Insights: Agentic LLM Pipelines for Spatio-Temporal Text-to-SQL [8.496933324334167]
本研究では,MistralをベースとしたRellama-sqlcoder-8bによるオーケストレーションにより,簡単なテキストからActまでのベースライン(Rellama-sqlcoder-8b)を提案する。ニューヨークと東京のチェックインで35の自然言語クエリを評価し,空間的・時間的マルチデータセット推論について検討した。このエージェントは、データセット 91.4% 対 28.6% よりもかなり精度が高く、地図によるユーザビリティを高め、自然言語の要約を構造化する。
論文参考訳（メタデータ） (2025-10-29T22:18:57Z)
End-to-End Text-to-SQL with Dataset Selection: Leveraging LLMs for Adaptive Query Generation [6.5390580456423555]
従来のアプローチでは、直接変換タスクとしてテキストからクエリをモデル化する。大規模言語モデル(LLM)の最近の進歩は翻訳精度を大幅に改善した。本稿では,ユーザの意図するデータベースを識別する3段階のエンドツーエンドテキスト・ツー・エンド・フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-08T15:16:36Z)
XiYan-SQL: A Novel Multi-Generator Framework For Text-to-SQL [48.45491386478092]
本稿では,複数の候補を効果的に生成・活用する革新的なフレームワークであるXiYan-を提案する。 XiYan-はBIRDベンチマークで75.63%の新しいSOTA性能を達成した。また、スパイダーテストセットのSOTA性能も89.65%の精度で達成した。
論文参考訳（メタデータ） (2025-07-07T06:50:46Z)
HI-SQL: Optimizing Text-to-SQL Systems through Dynamic Hint Integration [1.3927943269211591]
テキスト・ツー・ジェネレーションは自然言語とデータベースのギャップを埋め、ユーザーは専門知識を必要とせずにデータをクエリできる。履歴クエリログを利用した新しいヒント生成機構を組み込んだパイプラインHI-theを提案する。先行クエリを解析することにより、マルチテーブルおよびネストされた操作の複雑さを扱うことに焦点を当てたコンテキストヒントを生成する。提案手法は,LCM生成クエリのクエリ精度を大幅に向上し,呼び出しやレイテンシの面で効率性を確保した。
論文参考訳（メタデータ） (2025-06-11T12:07:55Z)
Query and Conquer: Execution-Guided SQL Generation [2.07180164747172]
本稿では,テキスト・ツー・タスクの精度を大幅に向上させる複雑な出力を生成する新しい手法を提案する。提案手法は,複数の候補から最もセマンティックに一貫性のあるクエリを選択するために,実行結果を活用する。
論文参考訳（メタデータ） (2025-03-31T17:43:36Z)
STaR-SQL: Self-Taught Reasoner for Text-to-SQL [20.719165038519744]
チェーンオブ思考」の理論的根拠は、複雑な推論タスクにおける大規模言語モデルの性能向上に有効であることが証明されている。テキスト駆動のような構造化されたタスクにそのようなテクニックを適用することは、ほとんど探索されていない。本稿では、クエリ生成を推論プロセスとして再編成する新しいアプローチである、テキスト駆動型セルフトレーサ(STaR-)を提案する。挑戦的なスパイダーベンチマークの実験結果によると、STaR-はテキストからパフォーマンスを大幅に改善し、86.6%の精度を実現している。これらの知見は、推論強化トレーニングの可能性を強調している。
論文参考訳（メタデータ） (2025-02-19T08:58:44Z)
MCTS-SQL: An Effective Framework for Text-to-SQL with Monte Carlo Tree Search [3.521199751827158]
本稿では,自然言語クエリをデータベースクエリに変換する新しい手法を提案する。我々はモンテカルロ木探索(MCTS)と自己精製機構を用いて精度と信頼性を向上させる。実験の結果,MCTS-IDERは最先端の性能を達成できた。
論文参考訳（メタデータ） (2025-01-28T00:52:23Z)
CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文参考訳（メタデータ） (2024-05-27T01:54:16Z)
SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。 Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。 emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文参考訳（メタデータ） (2023-11-06T05:24:06Z)
JoinGym: An Efficient Query Optimization Environment for Reinforcement Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。 JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文参考訳（メタデータ） (2023-07-21T17:00:06Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文参考訳（メタデータ） (2023-05-25T17:19:52Z)
Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-05-21T19:26:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。