Fugu-MT 論文翻訳(概要): RDD-Eclat: Approaches to Parallelize Eclat Algorithm on Spark RDD Framework (Extended Version)

論文の概要: RDD-Eclat: Approaches to Parallelize Eclat Algorithm on Spark RDD Framework (Extended Version)

arxiv url: http://arxiv.org/abs/2110.12012v1
Date: Fri, 22 Oct 2021 18:51:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-26 18:19:56.396973
Title: RDD-Eclat: Approaches to Parallelize Eclat Algorithm on Spark RDD Framework (Extended Version)
Title（参考訳）: RDD-Eclat: Spark RDDフレームワーク上でのEclatアルゴリズムの並列化(拡張バージョン)
Authors: Pankaj Singh, Sudhakar Singh, P K Mishra, Rakhi Garg
Abstract要約: 頻繁なアイテムセットマイニング(英: Frequent itemset mining、FIM)は、計算量とデータ集約アルゴリズムである。近年,Hadoop MapReduce上にFIMアルゴリズムが多数設計されている。 MapReduceは、非常に反復的なFIMアルゴリズムでは非効率である。本稿では,Spark RDDフレームワーク上の並列EclatアルゴリズムであるRDD-Eclatを提案する。
参考スコア（独自算出の注目度）: 1.480971531635033
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Frequent itemset mining (FIM) is a highly computational and data intensive algorithm. Therefore, parallel and distributed FIM algorithms have been designed to process large volume of data in a reduced time. Recently, a number of FIM algorithms have been designed on Hadoop MapReduce, a distributed big data processing framework. But, due to heavy disk I/O, MapReduce is found to be inefficient for the highly iterative FIM algorithms. Therefore, Spark, a more efficient distributed data processing framework, has been developed with in-memory computation and resilient distributed dataset (RDD) features to support the iterative algorithms. On this framework, Apriori and FP-Growth based FIM algorithms have been designed on the Spark RDD framework, but Eclat-based algorithm has not been explored yet. In this paper, RDD-Eclat, a parallel Eclat algorithm on the Spark RDD framework is proposed with its five variants. The proposed algorithms are evaluated on the various benchmark datasets, and the experimental results show that RDD-Eclat outperforms the Spark-based Apriori by many times. Also, the experimental results show the scalability of the proposed algorithms on increasing the number of cores and size of the dataset.
Abstract（参考訳）: 頻繁なアイテムセットマイニング(FIM)は計算量とデータ集約アルゴリズムである。したがって、並列分散FIMアルゴリズムは、大量のデータを少ない時間で処理するように設計されている。最近、分散ビッグデータ処理フレームワークであるHadoop MapReduce上で、多くのFIMアルゴリズムが設計されている。しかし、重いディスクI/Oのため、MapReduceは高度に反復的なFIMアルゴリズムでは非効率であることがわかった。そのため、より効率的な分散データ処理フレームワークであるSparkは、反復アルゴリズムをサポートするために、インメモリ計算とレジリエントな分散データセット(RDD)機能を備えた。このフレームワークでは、AprioriとFP-GrowthベースのFIMアルゴリズムがSpark RDDフレームワーク上で設計されているが、Eclatベースのアルゴリズムはまだ検討されていない。本稿では,Spark RDDフレームワーク上の並列EclatアルゴリズムであるRDD-Eclatについて,その5つの変種を用いて提案する。提案手法は,様々なベンチマークデータセット上で評価され,rdd-eclatはsparkベースのaprioriよりも何度も優れていた。また,実験結果から,提案アルゴリズムのスケーラビリティが,データセットのコア数やサイズを増大させることを示す。

関連論文リスト

ParlayANN: Scalable and Deterministic Parallel Graph-Based Approximate Nearest Neighbor Search Algorithms [5.478671305092084]
本稿では,ParlayANNについて紹介する。ParlayANNは決定論的および並列グラフに基づく近接探索アルゴリズムのライブラリである。我々は、数十億のデータセットにスケールする4つの最先端グラフベースのANNSアルゴリズムに対して、新しい並列実装を開発する。
論文参考訳（メタデータ） (2023-05-07T19:28:23Z)
Linearized Wasserstein dimensionality reduction with approximation guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文参考訳（メタデータ） (2023-02-14T22:12:16Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
Discrete Morse Sandwich: Fast Computation of Persistence Diagrams for Scalar Data -- An Algorithm and A Benchmark [8.648433479399857]
本稿では,d-次元単純複素数 K 上で定義される入力片方向線形スカラー場 f を与えられた永続図計算の効率的なアルゴリズムを提案する。我々はこのアルゴリズムを離散モース理論の設定内で表現し、考慮すべき入力単純さの数を著しく削減する。また、この問題に対して「サンドウィッチ」と呼ばれる階層化アプローチを導入する。
論文参考訳（メタデータ） (2022-06-27T10:54:24Z)
A density peaks clustering algorithm with sparse search and K-d tree [16.141611031128427]
この問題を解決するために,スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズムを開発した。分散特性が異なるデータセット上で、他の5つの典型的なクラスタリングアルゴリズムと比較して実験を行う。
論文参考訳（メタデータ） (2022-03-02T09:29:40Z)
TaSPM: Targeted Sequential Pattern Mining [53.234101208024335]
本稿では,高速CM-SPAMアルゴリズムに基づく汎用フレームワークTaSPMを提案する。また,マイニングプロセスにおける無意味な操作を減らすために,いくつかのプルーニング戦略を提案する。実験の結果,新たなターゲットマイニングアルゴリズムであるTaSPMは実行時間を短縮し,メモリ消費を低減できることがわかった。
論文参考訳（メタデータ） (2022-02-26T17:49:47Z)
SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。 KRRのストリーミング版であるStreaMRAKを提案する。本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文参考訳（メタデータ） (2021-08-23T21:03:09Z)
Learning to Hash Robustly, with Guarantees [79.68057056103014]
本稿では,理論的アルゴリズムと本質的に一致する最悪ケース保証を持つハミング空間のためのNSアルゴリズムを設計する。理論的にも実用的にも、与えられたデータセットに対してアルゴリズムが最適化できる能力を評価する。我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリを、1.8倍と2.1倍の精度でリコールする。
論文参考訳（メタデータ） (2021-08-11T20:21:30Z)
JAMPI: efficient matrix multiplication in Spark using Barrier Execution Mode [0.0]
Apache Sparkの新しいバリアモードでは、分散ディープラーニングトレーニングをSparkステージとして組み込むことができる。我々はキャノンのアルゴリズムを用いて効率的な分散行列乗法を文書化する。
論文参考訳（メタデータ） (2020-06-27T17:31:23Z)
Ranking and benchmarking framework for sampling algorithms on synthetic data streams [0.0]
ビッグデータ、AI、ストリーミング処理では、複数のソースから大量のデータを処理します。メモリとネットワークの制限のため、分散システム上のデータストリームを処理し、計算とネットワークの負荷を軽減する。概念のドリフトに反応するアルゴリズムを提供し、我々のフレームワークを用いた最先端のアルゴリズムと比較する。
論文参考訳（メタデータ） (2020-06-17T14:25:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。