論文の概要: Benchmarking Apache Spark and Hadoop MapReduce on Big Data
Classification
- arxiv url: http://arxiv.org/abs/2209.10637v1
- Date: Wed, 21 Sep 2022 20:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:37:57.258664
- Title: Benchmarking Apache Spark and Hadoop MapReduce on Big Data
Classification
- Title(参考訳): ビッグデータ分類によるApache SparkとHadoop MapReduceのベンチマーク
- Authors: Taha Tekdogan, Ali Cakmak
- Abstract要約: 我々は、Apache SparkとHadoop MapReduceという2つの広く使われているビッグデータ分析ツールの共通データマイニングタスク、すなわち分類に関するベンチマークを提示する。
我々は、SparkがモデルのトレーニングにおいてMapReduceよりも5倍高速であることを示した。しかしながら、Sparkのパフォーマンスは、入力ワークロードが大きくなると低下する。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the popular Big Data analytics tools evolved to adapt their working
environment to extract valuable information from a vast amount of unstructured
data. The ability of data mining techniques to filter this helpful information
from Big Data led to the term Big Data Mining. Shifting the scope of data from
small-size, structured, and stable data to huge volume, unstructured, and
quickly changing data brings many data management challenges. Different tools
cope with these challenges in their own way due to their architectural
limitations. There are numerous parameters to take into consideration when
choosing the right data management framework based on the task at hand. In this
paper, we present a comprehensive benchmark for two widely used Big Data
analytics tools, namely Apache Spark and Hadoop MapReduce, on a common data
mining task, i.e., classification. We employ several evaluation metrics to
compare the performance of the benchmarked frameworks, such as execution time,
accuracy, and scalability. These metrics are specialized to measure the
performance for classification task. To the best of our knowledge, there is no
previous study in the literature that employs all these metrics while taking
into consideration task-specific concerns. We show that Spark is 5 times faster
than MapReduce on training the model. Nevertheless, the performance of Spark
degrades when the input workload gets larger. Scaling the environment by
additional clusters significantly improves the performance of Spark. However,
similar enhancement is not observed in Hadoop. Machine learning utility of
MapReduce tend to have better accuracy scores than that of Spark, like around
3%, even in small size data sets.
- Abstract(参考訳): 一般的なビッグデータ分析ツールのほとんどは、作業環境に適応して、大量の非構造化データから貴重な情報を抽出するために進化しました。
データマイニング技術がビッグデータから有用な情報をフィルタリングする能力は、ビッグデータマイニング(Big Data Mining)という用語につながった。
データの範囲を小さく、構造化され、安定したデータから巨大なボリューム、非構造化、迅速な変更へとシフトすることは、多くのデータ管理の課題をもたらす。
異なるツールは、アーキテクチャ上の制限のため、独自の方法でこれらの課題に対処します。
目の前のタスクに基づいて適切なデータ管理フレームワークを選択する際に考慮すべきパラメータはたくさんあります。
本稿では,Apache SparkとHadoop MapReduceという2つの広く使用されているビッグデータ分析ツールの共通データマイニングタスク,すなわち分類に関する包括的なベンチマークを示す。
ベンチマークフレームワークのパフォーマンスを比較するために,実行時間や正確性,スケーラビリティなど,いくつかの評価指標を採用しています。
これらのメトリクスは、分類タスクのパフォーマンスを測定するために特別です。
私たちの知る限りでは、タスク固有の懸念を考慮に入れながらこれらの指標をすべて活用する文献には、これまでの研究はない。
Sparkは、モデルのトレーニングにおいてMapReduceよりも5倍高速です。
それでもSparkのパフォーマンスは、入力ワークロードが大きくなると低下する。
追加のクラスタによる環境のスケーリングは、Sparkのパフォーマンスを大幅に改善する。
しかし、hadoopでは同様の拡張は見られない。
mapreduceの機械学習ユーティリティは、小さなデータセットであっても、約3%のようにsparkよりも精度の高いスコアを持つ傾向がある。
関連論文リスト
- Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - TrueDeep: A systematic approach of crack detection with less data [0.0]
ドメイン知識をディープラーニングアーキテクチャと組み合わせることで、少ないデータで同様のパフォーマンスを実現することができることを示す。
我々のアルゴリズムは、全データの23%で開発され、テストデータ上でも同様の性能を持ち、複数の盲点データセット上では大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-05-30T14:51:58Z) - Autonomic Architecture for Big Data Performance Optimization [1.784933900656067]
本稿では,ビッグデータチューニングの自律的アーキテクチャであるKERMITについて述べる。
KERMITは、人間の管理者によるルール・オブ・サンプのチューニングよりも30%高速なパフォーマンスを実現することができる。
最大99%の精度で重要なワークロード変更を検出し、96%の精度で将来のワークロードタイプを予測することができる。
論文 参考訳(メタデータ) (2023-03-17T22:29:56Z) - Performance Evaluation of Query Plan Recommendation with Apache Hadoop
and Apache Spark [1.8205323885957208]
MapReduceベースのアクセス計画レコメンデーション手法は、クエリデータセットの異なるサイズをクラスタリングするために使用される。
実験では、並列クエリクラスタリングが高いスケーラビリティを実現する上での有効性を実証した。
Apache SparkはApache Hadoopよりもパフォーマンスが向上し、平均2倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2022-09-17T21:13:05Z) - Diversity Over Size: On the Effect of Sample and Topic Sizes for Topic-Dependent Argument Mining Datasets [49.65208986436848]
本研究では,アーギュメント・マイニング・データセットの構成が,少数・ゼロショット設定における影響について検討する。
実験結果から, モデル性能の達成には微調整が必須であるが, 慎重に構成したトレーニングサンプルを用いることで, トレーニングサンプルサイズを最大90%まで下げることで, 最大性能の95%を達成できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:14:32Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Imbalanced Big Data Oversampling: Taxonomy, Algorithms, Software,
Guidelines and Future Directions [6.436899373275926]
不均衡なビッグデータに対するオーバーサンプリングアルゴリズムの全体像を提案する。
14の最先端のオーバーサンプリングアルゴリズムを備えたSparkライブラリを導入しました。
オーバーサンプリングアルゴリズムの精度と時間的複雑さのトレードオフを評価する。
論文 参考訳(メタデータ) (2021-07-24T01:49:46Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - COAX: Correlation-Aware Indexing on Multidimensional Data with Soft
Functional Dependencies [3.670422696827525]
データセットの属性間の相関関係を学習する多次元データのための学習指標であるCOAXを提案する。
実験により,データ中の関連属性を予測することにより,クエリ実行時間を短縮し,インデックスのメモリオーバーヘッドを低減することができることがわかった。
論文 参考訳(メタデータ) (2020-06-29T21:22:15Z) - RadixSpline: A Single-Pass Learned Index [84.84747738666263]
RadixSpline(RS)は、データに1回のパスで構築できる学習インデックスです。
RSは2つのパラメータしか持たないにもかかわらず、すべてのデータセットで競合的な結果を達成する。
論文 参考訳(メタデータ) (2020-04-30T01:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。