論文の概要: Approximate Query Processing for Group-By Queries based on Conditional
Generative Models
- arxiv url: http://arxiv.org/abs/2101.02914v1
- Date: Fri, 8 Jan 2021 08:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 05:04:31.210166
- Title: Approximate Query Processing for Group-By Queries based on Conditional
Generative Models
- Title(参考訳): 条件付き生成モデルに基づくグループByクエリの近似クエリ処理
- Authors: Meifan Zhang and Hongzhi Wang
- Abstract要約: グループバイクエリには複数の値が含まれるため、すべてのグループに対して十分な正確な推定を行うのは難しい。
階層化サンプリングは、一様サンプリングに比べて精度が向上するが、特定のクエリで選択されたサンプルは他のクエリでは動作しない。
オンラインサンプリングは、クエリ時に与えられたクエリのサンプルを選択するが、長いレイテンシを必要とする。
提案フレームワークは階層化サンプリングとオンラインアグリゲーションを組み合わせることで,グループバイクエリの推定精度を向上させることができる。
- 参考スコア(独自算出の注目度): 3.9837198605506963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Group-By query is an important kind of query, which is common and widely
used in data warehouses, data analytics, and data visualization. Approximate
query processing is an effective way to increase the querying efficiency on big
data. The answer to a group-by query involves multiple values, which makes it
difficult to provide sufficiently accurate estimations for all the groups.
Stratified sampling improves the accuracy compared with the uniform sampling,
but the samples chosen for some special queries cannot work for other queries.
Online sampling chooses samples for the given query at query time, but it
requires a long latency. Thus, it is a challenge to achieve both accuracy and
efficiency at the same time. Facing such challenge, in this work, we propose a
sample generation framework based on a conditional generative model. The sample
generation framework can generate any number of samples for the given query
without accessing the data. The proposed framework based on the lightweight
model can be combined with stratified sampling and online aggregation to
improve the estimation accuracy for group-by queries. The experimental results
show that our proposed methods are both efficient and accurate.
- Abstract(参考訳): Group-Byクエリは重要なクエリであり、データウェアハウス、データ分析、データ視覚化で広く使われている。
近似クエリ処理は、ビッグデータのクエリ効率を向上させる効果的な方法である。
グループバイクエリに対する回答は複数の値を含むため、すべてのグループに対して十分な正確な推定を行うのは難しい。
階層化サンプリングは、一様サンプリングに比べて精度が向上するが、特定のクエリで選択されたサンプルは他のクエリでは動作しない。
オンラインサンプリングはクエリ時に所定のクエリのサンプルを選択するが、長いレイテンシを必要とする。
したがって、正確性と効率性の両方を同時に達成することは困難である。
このような課題に直面した本研究では,条件付き生成モデルに基づくサンプル生成フレームワークを提案する。
サンプル生成フレームワークは、データにアクセスせずに、与えられたクエリのサンプルを何個も生成できる。
軽量モデルに基づく提案フレームワークは,階層化サンプリングやオンラインアグリゲーションと組み合わせることで,グループ別クエリの推定精度を向上させることができる。
実験の結果,提案手法は効率的かつ正確であることがわかった。
関連論文リスト
- Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - MeaeQ: Mount Model Extraction Attacks with Efficient Queries [6.1106195466129485]
自然言語処理(NLP)におけるモデル抽出攻撃の研究
これらの問題に対処する単純で効果的な方法であるMeaeQを提案する。
MeaeQは、クエリを少なくしながら、ベースラインよりも犠牲者モデルに高い機能的類似性を実現する。
論文 参考訳(メタデータ) (2023-10-21T16:07:16Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Electra: Conditional Generative Model based Predicate-Aware Query
Approximation [10.056919500568013]
ELECTRAは述語対応のAQPシステムで、多くの述語で分析スタイルのクエリに答えることができ、近似誤差ははるかに小さい。
実世界の3つのデータセットに対する4つの異なるベースラインによる評価の結果,ELECTRAはベースラインと比較して多数の述語に対して低いAQP誤差を提供することがわかった。
論文 参考訳(メタデータ) (2022-01-28T21:13:26Z) - How to Query An Oracle? Efficient Strategies to Label Data [59.89900843097016]
機械学習におけるデータセットのラベル付けに専門家の託宣を照会する際の基本的な問題について考察する。
本稿では,サンプルをラベル付けするために,ラウンド・バイ・ラウンドでランダム化されたバッチアルゴリズムを提案し,クエリレートが$O(fracNk2)$であることを示す。
さらに,適応型グリージークエリ方式を提案し,三重項クエリを用いたサンプルあたり平均$approx 0.2N$クエリを実現する。
論文 参考訳(メタデータ) (2021-10-05T20:15:35Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - DeepSampling: Selectivity Estimation with Predicted Error and Response
Time [7.23389716633927]
本稿では,サンプルベースAQPアルゴリズムの精度を予測するディープラーニングモデルであるDeepSamplingを提案する。
DeepSamplingは、既存の空間データベースがAQPの精度を制御するための信頼性の高いツールを提供する最初のシステムである。
論文 参考訳(メタデータ) (2020-08-16T03:23:01Z) - Approximating a Target Distribution using Weight Queries [25.392248158616862]
本稿では,データセットの例を反復的に選択し,対応する重み付けクエリを実行する対話型アルゴリズムを提案する。
我々は,アルゴリズムが検出した再重み付けと,最も達成可能な再重み付けとの間の全変動距離に依存する近似を導出する。
論文 参考訳(メタデータ) (2020-06-24T11:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。