論文の概要: Approximating Aggregated SQL Queries With LSTM Networks
- arxiv url: http://arxiv.org/abs/2010.13149v3
- Date: Tue, 5 Jan 2021 11:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:58:12.224140
- Title: Approximating Aggregated SQL Queries With LSTM Networks
- Title(参考訳): LSTMネットワークによる集約SQLクエリの近似
- Authors: Nir Regev, Lior Rokach, Asaf Shabtai
- Abstract要約: 本稿では、近似クエリ処理(AQP)とも呼ばれるクエリ近似法を提案する。
我々は、LSTMネットワークを用いて、クエリと結果の関係を学習し、クエリ結果を予測するための高速な推論層を提供する。
提案手法では,1秒間に最大12万のクエリを予測でき,クエリのレイテンシは2ms以下であった。
- 参考スコア(独自算出の注目度): 31.528524004435933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite continuous investments in data technologies, the latency of querying
data still poses a significant challenge. Modern analytic solutions require
near real-time responsiveness both to make them interactive and to support
automated processing. Current technologies (Hadoop, Spark, Dataflow) scan the
dataset to execute queries. They focus on providing a scalable data storage to
maximize task execution speed. We argue that these solutions fail to offer an
adequate level of interactivity since they depend on continual access to data.
In this paper we present a method for query approximation, also known as
approximate query processing (AQP), that reduce the need to scan data during
inference (query calculation), thus enabling a rapid query processing tool. We
use LSTM network to learn the relationship between queries and their results,
and to provide a rapid inference layer for predicting query results. Our method
(referred as ``Hunch``) produces a lightweight LSTM network which provides a
high query throughput. We evaluated our method using twelve datasets and
compared to state-of-the-art AQP engines (VerdictDB, BlinkDB) from query
latency, model weight and accuracy perspectives. The results show that our
method predicted queries' results with a normalized root mean squared error
(NRMSE) ranging from approximately 1\% to 4\% which in the majority of our data
sets was better then the compared benchmarks. Moreover, our method was able to
predict up to 120,000 queries in a second (streamed together), and with a
single query latency of no more than 2ms.
- Abstract(参考訳): データ技術への継続的な投資にもかかわらず、クエリデータのレイテンシは依然として大きな課題である。
現代の分析ソリューションでは、インタラクティブな処理と自動処理をサポートするために、ほぼリアルタイムの応答性が必要です。
現在の技術(hadoop、spark、dataflow)はデータセットをスキャンしてクエリを実行する。
タスクの実行速度を最大化するために、スケーラブルなデータストレージの提供に注力している。
これらのソリューションは、データへの継続的なアクセスに依存しているため、適切なレベルの対話性を提供しない。
本稿では,近似クエリ処理(AQP)と呼ばれるクエリ近似の手法を提案する。
LSTMネットワークを用いてクエリと結果の関係を学習し、クエリ結果を予測するための高速推論層を提供する。
我々の手法( ``Hunch`` 参照)は、高いクエリスループットを提供する軽量LSTMネットワークを生成する。
提案手法は12のデータセットを用いて評価し,クエリ待ち時間,モデル重み,精度の観点から,最先端のaqpエンジン(verdictdb,blinkdb)と比較した。
その結果,本手法は平均二乗誤差 (nrmse) の正規化によってクエリの結果を予測し, 比較したベンチマークと比較した結果, 平均二乗誤差 (nrmse) が約1\%から4\%に向上したことがわかった。
さらに,提案手法では1秒間に最大12万のクエリを予測でき,クエリのレイテンシは2ms以下であった。
関連論文リスト
- TELII: Temporal Event Level Inverted Indexing for Cohort Discovery on a Large Covid-19 EHR Dataset [4.872926155522239]
TELIIは、大規模なEHRデータセット上でのコホート発見のために設計された時間事象レベルの逆インデックス法である。
我々は,887万人の患者から得られたデータを含む,OPTUM未同定のCOVID-19 EHRデータセットにTELIIを実装した。
その結果、TELIIの時間的クエリ速度は、既存の非時間的逆索引の2000倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:06:33Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - User Intent Recognition and Semantic Cache Optimization-Based Query Processing Framework using CFLIS and MGR-LAU [0.0]
この研究は、拡張QPのためのクエリにおける情報、ナビゲーション、およびトランザクションベースのインテントを分析した。
効率的なQPのために、データはEpanechnikov Kernel-Ordering Pointsを用いて構造化され、クラスタリング構造(EK-OPTICS)を同定する。
抽出された特徴、検出された意図、構造化データは、MGR-LAU(Multi-head Gated Recurrent Learnable Attention Unit)に入力される。
論文 参考訳(メタデータ) (2024-06-06T20:28:05Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - MeaeQ: Mount Model Extraction Attacks with Efficient Queries [6.1106195466129485]
自然言語処理(NLP)におけるモデル抽出攻撃の研究
これらの問題に対処する単純で効果的な方法であるMeaeQを提案する。
MeaeQは、クエリを少なくしながら、ベースラインよりも犠牲者モデルに高い機能的類似性を実現する。
論文 参考訳(メタデータ) (2023-10-21T16:07:16Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - Kepler: Robust Learning for Faster Parametric Query Optimization [5.6119420695093245]
パラメトリッククエリ最適化のためのエンドツーエンドの学習ベースアプローチを提案する。
Keplerは、複数のデータセット上でのクエリランタイムの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-06-11T22:39:28Z) - On Efficient Approximate Queries over Machine Learning Models [30.26180913049285]
本稿では,プロキシを活用し,オラクルの使用量を最小限に抑えることで,クエリ応答を近似する新しい統一フレームワークを開発する。
我々のフレームワークは、データサンプルに高価なオラクルを呼び出し、DB内のオブジェクトに安価なプロキシを適用するという、司法的な組み合わせを使用します。
我々のアルゴリズムは最先端のアルゴリズムより優れており、証明可能な統計的保証で高い結果が得られる。
論文 参考訳(メタデータ) (2022-06-06T18:35:19Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。