Fugu-MT 論文翻訳(概要): Performance Evaluation of Query Plan Recommendation with Apache Hadoop and Apache Spark

論文の概要: Performance Evaluation of Query Plan Recommendation with Apache Hadoop and Apache Spark

arxiv url: http://arxiv.org/abs/2210.07143v1
Date: Sat, 17 Sep 2022 21:13:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-16 16:25:46.974399
Title: Performance Evaluation of Query Plan Recommendation with Apache Hadoop and Apache Spark
Title（参考訳）: Apache HadoopとApache Sparkによるクエリプラン勧告のパフォーマンス評価
Authors: Elham Azhir, Mehdi Hosseinzadeh, Faheem Khan and Amir Mosavi
Abstract要約: MapReduceベースのアクセス計画レコメンデーション手法は、クエリデータセットの異なるサイズをクラスタリングするために使用される。実験では、並列クエリクラスタリングが高いスケーラビリティを実現する上での有効性を実証した。 Apache SparkはApache Hadoopよりもパフォーマンスが向上し、平均2倍のスピードアップを達成した。
参考スコア（独自算出の注目度）: 1.8205323885957208
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Access plan recommendation is a query optimization approach that executes new queries using prior created query execution plans (QEPs). The query optimizer divides the query space into clusters in the mentioned method. However, traditional clustering algorithms take a significant amount of execution time for clustering such large datasets. The MapReduce distributed computing model provides efficient solutions for storing and processing vast quantities of data. Apache Spark and Apache Hadoop frameworks are used in the present investigation to cluster different sizes of query datasets in the MapReduce-based access plan recommendation method. The performance evaluation is performed based on execution time. The results of the experiments demonstrated the effectiveness of parallel query clustering in achieving high scalability. Furthermore, Apache Spark achieved better performance than Apache Hadoop, reaching an average speedup of 2x.
Abstract（参考訳）: アクセス計画レコメンデーションは、以前作成されたクエリ実行計画(QEP)を使用して新しいクエリを実行するクエリ最適化アプローチである。クエリオプティマイザは、クエリ空間を前述の方法でクラスタに分割する。しかし、従来のクラスタリングアルゴリズムは、そのような大規模なデータセットをクラスタリングするのにかなりの時間を要する。 MapReduce分散コンピューティングモデルは、大量のデータを保存および処理するための効率的なソリューションを提供する。 Apache SparkとApache Hadoopフレームワークは、MapReduceベースのアクセス計画レコメンデーションメソッドでクエリデータセットのさまざまなサイズをクラスタリングするために、今回の調査で使用されている。実行時間に基づいて性能評価を行う。実験の結果,並列クエリクラスタリングの有効性を実証し,高いスケーラビリティを実現した。さらに、Apache SparkはApache Hadoopよりもパフォーマンスが良く、平均2倍のスピードアップを達成した。

関連論文リスト

Exploring Multi-Table Retrieval Through Iterative Search [0.32665457005470494]
データレイクに対するオープンドメインの質問応答には、複数のテーブルから情報を検索して構成する必要がある。 MIP(Mixed-Integer Programming)のような厳密な最適化手法はコヒーレンスを保証する。本稿では,マルチテーブル検索を反復探索プロセスとして捉え,拡張性,解釈可能性,柔軟性の面での利点を論じる。
論文参考訳（メタデータ） (2025-11-17T14:31:33Z)
Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文参考訳（メタデータ） (2024-09-10T12:46:23Z)
JoinGym: An Efficient Query Optimization Environment for Reinforcement Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。 JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文参考訳（メタデータ） (2023-07-21T17:00:06Z)
WISK: A Workload-aware Learned Index for Spatial Keyword Queries [46.96314606580924]
本稿では,空間的キーワードクエリの学習指標であるWISKを提案する。 We show that WISK achieve up to 8x speedup in querying time with comparable storage overhead。
論文参考訳（メタデータ） (2023-02-28T03:45:25Z)
Benchmarking Apache Spark and Hadoop MapReduce on Big Data Classification [3.42658286826597]
我々は、Apache SparkとHadoop MapReduceという2つの広く使われているビッグデータ分析ツールの共通データマイニングタスク、すなわち分類に関するベンチマークを提示する。我々は、SparkがモデルのトレーニングにおいてMapReduceよりも5倍高速であることを示した。しかしながら、Sparkのパフォーマンスは、入力ワークロードが大きくなると低下する。
論文参考訳（メタデータ） (2022-09-21T20:08:37Z)
A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文参考訳（メタデータ） (2022-04-21T11:24:55Z)
Predictive Price-Performance Optimization for Serverless Query Processing [4.592033251529541]
予測資源割り当てのための効率的なパラメトリック・モデリング・フレームワークを提案する。当社のシステムであるAutoExecutorが、このフレームワークを使って、ほぼ最適な実行子とコア数を自動的に選択する方法について、深く議論し、評価する。
論文参考訳（メタデータ） (2021-12-16T02:23:05Z)
Learning Query Expansion over the Nearest Neighbor Graph [94.80212602202518]
グラフクエリ拡張(GQE)が提示され、教師付き方法で学習され、クエリの拡張近傍で集約を実行する。この技術は既知のベンチマークよりも最先端の結果が得られる。
論文参考訳（メタデータ） (2021-12-05T19:48:42Z)
How to Query An Oracle? Efficient Strategies to Label Data [59.89900843097016]
機械学習におけるデータセットのラベル付けに専門家の託宣を照会する際の基本的な問題について考察する。本稿では,サンプルをラベル付けするために,ラウンド・バイ・ラウンドでランダム化されたバッチアルゴリズムを提案し,クエリレートが$O(fracNk2)$であることを示す。さらに,適応型グリージークエリ方式を提案し,三重項クエリを用いたサンプルあたり平均$approx 0.2N$クエリを実現する。
論文参考訳（メタデータ） (2021-10-05T20:15:35Z)
Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。 A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文参考訳（メタデータ） (2021-04-14T18:15:27Z)
Approximating Aggregated SQL Queries With LSTM Networks [31.528524004435933]
本稿では、近似クエリ処理(AQP)とも呼ばれるクエリ近似法を提案する。我々は、LSTMネットワークを用いて、クエリと結果の関係を学習し、クエリ結果を予測するための高速な推論層を提供する。提案手法では,1秒間に最大12万のクエリを予測でき,クエリのレイテンシは2ms以下であった。
論文参考訳（メタデータ） (2020-10-25T16:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。