論文の概要: Bootstrapping Learned Cost Models with Synthetic SQL Queries
- arxiv url: http://arxiv.org/abs/2508.19807v1
- Date: Wed, 27 Aug 2025 11:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.615462
- Title: Bootstrapping Learned Cost Models with Synthetic SQL Queries
- Title(参考訳): 合成SQLクエリを用いたブートストラップ学習コストモデル
- Authors: Michael Nidd, Christoph Miksovic, Thomas Gschwind, Francesco Fusco, Andrea Giovannini, Ioana Giurgiu,
- Abstract要約: 学習コストモデルの最近の進歩は、特定のデータベースエンジンに対して所定のクエリを実行するコストを効果的かつ効率的に予測できることを示している。
競合生成手法よりも45%少ないクエリでトレーニングすることで,学習コストモデルの予測精度を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 5.358221160521712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Having access to realistic workloads for a given database instance is extremely important to enable stress and vulnerability testing, as well as to optimize for cost and performance. Recent advances in learned cost models have shown that when enough diverse SQL queries are available, one can effectively and efficiently predict the cost of running a given query against a specific database engine. In this paper, we describe our experience in exploiting modern synthetic data generation techniques, inspired by the generative AI and LLM community, to create high-quality datasets enabling the effective training of such learned cost models. Initial results show that we can improve a learned cost model's predictive accuracy by training it with 45% fewer queries than when using competitive generation approaches.
- Abstract(参考訳): データベースインスタンスの現実的なワークロードへのアクセスは、ストレステストと脆弱性テストを有効にし、コストとパフォーマンスを最適化するために非常に重要です。
学習コストモデルの最近の進歩は、十分な多様なSQLクエリが利用可能であれば、特定のデータベースエンジンに対して所定のクエリを実行するコストを効果的かつ効率的に予測できることを示している。
本稿では、生成型AIとLLMコミュニティに触発された現代の合成データ生成技術を活用して、このような学習コストモデルの効果的なトレーニングを可能にする高品質なデータセットを作成する経験について述べる。
最初の結果は、競合生成アプローチを使用する場合よりもクエリを45%少なくトレーニングすることで、学習コストモデルの予測精度を向上できることを示している。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - FASTGEN: Fast and Cost-Effective Synthetic Tabular Data Generation with LLMs [3.703188184729035]
合成データ生成は、現実のデータ収集と使用がコストと不足によって制限されるシナリオにおいて、重要なソリューションである。
個々のレコードを生成するために大きな言語モデルを直接使用する既存のアプローチは、禁止時間とコスト負担を個別に課している。
LLMを利用して各フィールドの分布を再利用可能なサンプリングスクリプトに推論してエンコードする,現実的な表形式データ合成のための高速で費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2025-07-21T17:51:46Z) - Reqo: A Robust and Explainable Query Optimization Cost Model [2.184775414778289]
GRU(Gated Recurrent Units)によって集約された双方向グラフニューラルネットワーク(Bi-GNN)に基づくツリーモデルアーキテクチャを提案する。
我々は,確率的MLを用いて,コスト見積の不確実性を効果的に定量化する,新しい学習とランクのコストモデルを実装した。
さらに,学習型コストモデルに特化して設計された最初の説明可能性手法を提案する。
論文 参考訳(メタデータ) (2025-01-29T04:48:51Z) - Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - SHiFT: An Efficient, Flexible Search Engine for Transfer Learning [16.289623977712086]
トランスファーラーニングは、スクラッチからトレーニングモデルのデータと計算効率の代替品と見なすことができる。
本稿では,トランスファー学習のための第1のダウンストリームタスク認識,フレキシブル,効率的なモデル検索エンジンであるSHiFTを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:16:46Z) - Zero-Shot Cost Models for Out-of-the-box Learned Cost Prediction [18.46293613612346]
ゼロショットコストモデルを導入し、未確認データベースに一般化した学習コスト推定を可能にする。
事前学習したコストモデルに基づく新しい学習パラダイムを提案する。
ゼロショットコストモデルが数ショットモードで利用可能であることを示し、未知のデータベースに少数追加のトレーニングクエリを追加するだけで、その品質をさらに向上できることを示した。
論文 参考訳(メタデータ) (2022-01-03T10:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。