論文の概要: Performance Evaluation of Query Plan Recommendation with Apache Hadoop
and Apache Spark
- arxiv url: http://arxiv.org/abs/2210.07143v1
- Date: Sat, 17 Sep 2022 21:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 16:25:46.974399
- Title: Performance Evaluation of Query Plan Recommendation with Apache Hadoop
and Apache Spark
- Title(参考訳): Apache HadoopとApache Sparkによるクエリプラン勧告のパフォーマンス評価
- Authors: Elham Azhir, Mehdi Hosseinzadeh, Faheem Khan and Amir Mosavi
- Abstract要約: MapReduceベースのアクセス計画レコメンデーション手法は、クエリデータセットの異なるサイズをクラスタリングするために使用される。
実験では、並列クエリクラスタリングが高いスケーラビリティを実現する上での有効性を実証した。
Apache SparkはApache Hadoopよりもパフォーマンスが向上し、平均2倍のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 1.8205323885957208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Access plan recommendation is a query optimization approach that executes new
queries using prior created query execution plans (QEPs). The query optimizer
divides the query space into clusters in the mentioned method. However,
traditional clustering algorithms take a significant amount of execution time
for clustering such large datasets. The MapReduce distributed computing model
provides efficient solutions for storing and processing vast quantities of
data. Apache Spark and Apache Hadoop frameworks are used in the present
investigation to cluster different sizes of query datasets in the
MapReduce-based access plan recommendation method. The performance evaluation
is performed based on execution time. The results of the experiments
demonstrated the effectiveness of parallel query clustering in achieving high
scalability. Furthermore, Apache Spark achieved better performance than Apache
Hadoop, reaching an average speedup of 2x.
- Abstract(参考訳): アクセス計画レコメンデーションは、以前作成されたクエリ実行計画(QEP)を使用して新しいクエリを実行するクエリ最適化アプローチである。
クエリオプティマイザは、クエリ空間を前述の方法でクラスタに分割する。
しかし、従来のクラスタリングアルゴリズムは、そのような大規模なデータセットをクラスタリングするのにかなりの時間を要する。
MapReduce分散コンピューティングモデルは、大量のデータを保存および処理するための効率的なソリューションを提供する。
Apache SparkとApache Hadoopフレームワークは、MapReduceベースのアクセス計画レコメンデーションメソッドでクエリデータセットのさまざまなサイズをクラスタリングするために、今回の調査で使用されている。
実行時間に基づいて性能評価を行う。
実験の結果,並列クエリクラスタリングの有効性を実証し,高いスケーラビリティを実現した。
さらに、Apache SparkはApache Hadoopよりもパフォーマンスが良く、平均2倍のスピードアップを達成した。
関連論文リスト
- Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - WISK: A Workload-aware Learned Index for Spatial Keyword Queries [46.96314606580924]
本稿では,空間的キーワードクエリの学習指標であるWISKを提案する。
We show that WISK achieve up to 8x speedup in querying time with comparable storage overhead。
論文 参考訳(メタデータ) (2023-02-28T03:45:25Z) - Benchmarking Apache Spark and Hadoop MapReduce on Big Data
Classification [3.42658286826597]
我々は、Apache SparkとHadoop MapReduceという2つの広く使われているビッグデータ分析ツールの共通データマイニングタスク、すなわち分類に関するベンチマークを提示する。
我々は、SparkがモデルのトレーニングにおいてMapReduceよりも5倍高速であることを示した。しかしながら、Sparkのパフォーマンスは、入力ワークロードが大きくなると低下する。
論文 参考訳(メタデータ) (2022-09-21T20:08:37Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Predictive Price-Performance Optimization for Serverless Query
Processing [4.592033251529541]
予測資源割り当てのための効率的なパラメトリック・モデリング・フレームワークを提案する。
当社のシステムであるAutoExecutorが、このフレームワークを使って、ほぼ最適な実行子とコア数を自動的に選択する方法について、深く議論し、評価する。
論文 参考訳(メタデータ) (2021-12-16T02:23:05Z) - Learning Query Expansion over the Nearest Neighbor Graph [94.80212602202518]
グラフクエリ拡張(GQE)が提示され、教師付き方法で学習され、クエリの拡張近傍で集約を実行する。
この技術は既知のベンチマークよりも最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-12-05T19:48:42Z) - How to Query An Oracle? Efficient Strategies to Label Data [59.89900843097016]
機械学習におけるデータセットのラベル付けに専門家の託宣を照会する際の基本的な問題について考察する。
本稿では,サンプルをラベル付けするために,ラウンド・バイ・ラウンドでランダム化されたバッチアルゴリズムを提案し,クエリレートが$O(fracNk2)$であることを示す。
さらに,適応型グリージークエリ方式を提案し,三重項クエリを用いたサンプルあたり平均$approx 0.2N$クエリを実現する。
論文 参考訳(メタデータ) (2021-10-05T20:15:35Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Approximating Aggregated SQL Queries With LSTM Networks [31.528524004435933]
本稿では、近似クエリ処理(AQP)とも呼ばれるクエリ近似法を提案する。
我々は、LSTMネットワークを用いて、クエリと結果の関係を学習し、クエリ結果を予測するための高速な推論層を提供する。
提案手法では,1秒間に最大12万のクエリを予測でき,クエリのレイテンシは2ms以下であった。
論文 参考訳(メタデータ) (2020-10-25T16:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。