論文の概要: RDD-Eclat: Approaches to Parallelize Eclat Algorithm on Spark RDD
Framework (Extended Version)
- arxiv url: http://arxiv.org/abs/2110.12012v1
- Date: Fri, 22 Oct 2021 18:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 18:19:56.396973
- Title: RDD-Eclat: Approaches to Parallelize Eclat Algorithm on Spark RDD
Framework (Extended Version)
- Title(参考訳): RDD-Eclat: Spark RDDフレームワーク上でのEclatアルゴリズムの並列化(拡張バージョン)
- Authors: Pankaj Singh, Sudhakar Singh, P K Mishra, Rakhi Garg
- Abstract要約: 頻繁なアイテムセットマイニング(英: Frequent itemset mining、FIM)は、計算量とデータ集約アルゴリズムである。
近年,Hadoop MapReduce上にFIMアルゴリズムが多数設計されている。
MapReduceは、非常に反復的なFIMアルゴリズムでは非効率である。
本稿では,Spark RDDフレームワーク上の並列EclatアルゴリズムであるRDD-Eclatを提案する。
- 参考スコア(独自算出の注目度): 1.480971531635033
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Frequent itemset mining (FIM) is a highly computational and data intensive
algorithm. Therefore, parallel and distributed FIM algorithms have been
designed to process large volume of data in a reduced time. Recently, a number
of FIM algorithms have been designed on Hadoop MapReduce, a distributed big
data processing framework. But, due to heavy disk I/O, MapReduce is found to be
inefficient for the highly iterative FIM algorithms. Therefore, Spark, a more
efficient distributed data processing framework, has been developed with
in-memory computation and resilient distributed dataset (RDD) features to
support the iterative algorithms. On this framework, Apriori and FP-Growth
based FIM algorithms have been designed on the Spark RDD framework, but
Eclat-based algorithm has not been explored yet. In this paper, RDD-Eclat, a
parallel Eclat algorithm on the Spark RDD framework is proposed with its five
variants. The proposed algorithms are evaluated on the various benchmark
datasets, and the experimental results show that RDD-Eclat outperforms the
Spark-based Apriori by many times. Also, the experimental results show the
scalability of the proposed algorithms on increasing the number of cores and
size of the dataset.
- Abstract(参考訳): 頻繁なアイテムセットマイニング(FIM)は計算量とデータ集約アルゴリズムである。
したがって、並列分散FIMアルゴリズムは、大量のデータを少ない時間で処理するように設計されている。
最近、分散ビッグデータ処理フレームワークであるHadoop MapReduce上で、多くのFIMアルゴリズムが設計されている。
しかし、重いディスクI/Oのため、MapReduceは高度に反復的なFIMアルゴリズムでは非効率であることがわかった。
そのため、より効率的な分散データ処理フレームワークであるSparkは、反復アルゴリズムをサポートするために、インメモリ計算とレジリエントな分散データセット(RDD)機能を備えた。
このフレームワークでは、AprioriとFP-GrowthベースのFIMアルゴリズムがSpark RDDフレームワーク上で設計されているが、Eclatベースのアルゴリズムはまだ検討されていない。
本稿では,Spark RDDフレームワーク上の並列EclatアルゴリズムであるRDD-Eclatについて,その5つの変種を用いて提案する。
提案手法は,様々なベンチマークデータセット上で評価され,rdd-eclatはsparkベースのaprioriよりも何度も優れていた。
また,実験結果から,提案アルゴリズムのスケーラビリティが,データセットのコア数やサイズを増大させることを示す。
関連論文リスト
- ParlayANN: Scalable and Deterministic Parallel Graph-Based Approximate
Nearest Neighbor Search Algorithms [5.478671305092084]
本稿では,ParlayANNについて紹介する。ParlayANNは決定論的および並列グラフに基づく近接探索アルゴリズムのライブラリである。
我々は、数十億のデータセットにスケールする4つの最先端グラフベースのANNSアルゴリズムに対して、新しい並列実装を開発する。
論文 参考訳(メタデータ) (2023-05-07T19:28:23Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Discrete Morse Sandwich: Fast Computation of Persistence Diagrams for
Scalar Data -- An Algorithm and A Benchmark [8.648433479399857]
本稿では,d-次元単純複素数 K 上で定義される入力片方向線形スカラー場 f を与えられた永続図計算の効率的なアルゴリズムを提案する。
我々はこのアルゴリズムを離散モース理論の設定内で表現し、考慮すべき入力単純さの数を著しく削減する。
また、この問題に対して「サンドウィッチ」と呼ばれる階層化アプローチを導入する。
論文 参考訳(メタデータ) (2022-06-27T10:54:24Z) - TaSPM: Targeted Sequential Pattern Mining [53.234101208024335]
本稿では,高速CM-SPAMアルゴリズムに基づく汎用フレームワークTaSPMを提案する。
また,マイニングプロセスにおける無意味な操作を減らすために,いくつかのプルーニング戦略を提案する。
実験の結果,新たなターゲットマイニングアルゴリズムであるTaSPMは実行時間を短縮し,メモリ消費を低減できることがわかった。
論文 参考訳(メタデータ) (2022-02-26T17:49:47Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Learning to Hash Robustly, with Guarantees [79.68057056103014]
本稿では,理論的アルゴリズムと本質的に一致する最悪ケース保証を持つハミング空間のためのNSアルゴリズムを設計する。
理論的にも実用的にも、与えられたデータセットに対してアルゴリズムが最適化できる能力を評価する。
我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリを、1.8倍と2.1倍の精度でリコールする。
論文 参考訳(メタデータ) (2021-08-11T20:21:30Z) - JAMPI: efficient matrix multiplication in Spark using Barrier Execution
Mode [0.0]
Apache Sparkの新しいバリアモードでは、分散ディープラーニングトレーニングをSparkステージとして組み込むことができる。
我々はキャノンのアルゴリズムを用いて効率的な分散行列乗法を文書化する。
論文 参考訳(メタデータ) (2020-06-27T17:31:23Z) - Ranking and benchmarking framework for sampling algorithms on synthetic
data streams [0.0]
ビッグデータ、AI、ストリーミング処理では、複数のソースから大量のデータを処理します。
メモリとネットワークの制限のため、分散システム上のデータストリームを処理し、計算とネットワークの負荷を軽減する。
概念のドリフトに反応するアルゴリズムを提供し、我々のフレームワークを用いた最先端のアルゴリズムと比較する。
論文 参考訳(メタデータ) (2020-06-17T14:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。