論文の概要: Parallel algorithms for mining of frequent itemsets
- arxiv url: http://arxiv.org/abs/2108.05038v1
- Date: Wed, 11 Aug 2021 05:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:18:22.062401
- Title: Parallel algorithms for mining of frequent itemsets
- Title(参考訳): 頻繁なアイテムセットのマイニングのための並列アルゴリズム
- Authors: Robert Kessl
- Abstract要約: 分散メモリ並列計算機上で頻繁なアイテムセットをマイニングする並列手法を開発した。
提案手法は,10プロセッサで6の高速化を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the recent decade companies started collecting of large amount of data.
Without a proper analyse, the data are usually useless. The field of analysing
the data is called data mining. Unfortunately, the amount of data is quite
large: the data do not fit into main memory and the processing time can become
quite huge. Therefore, we need parallel data mining algorithms. One of the
popular and important data mining algorithm is the algorithm for generation of
so called frequent itemsets. The problem of mining of frequent itemsets can be
explained on the following example: customers goes in a store put into theirs
baskets some goods; the owner of the store collects the baskets and wants to
know the set of goods that are bought together in at least p% of the baskets.
Currently, the sequential algorithms for mining of frequent itemsets are quite
good in the means of performance. However, the parallel algorithms for mining
of frequent itemsets still do not achieve good speedup. In this thesis, we
develop a parallel method for mining of frequent itemsets that can be used for
an arbitrary depth first search sequential algorithms on a distributed memory
parallel computer. Our method achieves speedup of ~ 6 on 10 processors. The
method is based on an approximate estimation of processor load from a database
sample - however it always computes the set of frequent itemsets from the whole
database. In this thesis, we show a theory underlying our method and show the
performance of the estimation process.
- Abstract(参考訳): 最近の10年間で企業は大量のデータを集め始めた。
適切な分析がなければ、データは通常役に立たない。
データ分析の分野はデータマイニングと呼ばれる。
残念ながら、データ量は極めて大きく、データがメインメモリに収まらず、処理時間がかなり大きくなる可能性がある。
したがって並列データマイニングアルゴリズムが必要である。
人気があり重要なデータマイニングアルゴリズムの1つは、頻繁なアイテムセットを生成するアルゴリズムである。
頻繁なアイテムセットの採掘の問題は、客が商品のバスケットに入れた店に入り、店のオーナーがバスケットを集め、少なくとも1割のバスケットで購入した商品のセットを知りたがっているという例で説明できる。
現在、頻繁なアイテムセットをマイニングするためのシーケンシャルアルゴリズムは、パフォーマンス面で非常に優れている。
しかし、頻繁なアイテムセットのマイニングのための並列アルゴリズムは、まだ良いスピードアップを達成できていない。
そこで本論文では,分散メモリ並列計算機上で任意の深度ファーストサーチシーケンシャルアルゴリズムに使用可能な,頻繁なアイテムセットをマイニングする並列手法を提案する。
提案手法は10プロセッサで約6の高速化を実現する。
この方法は、データベースサンプルからのプロセッサ負荷の近似的な推定に基づいているが、データベース全体からの頻繁なアイテムセットのセットを常に計算する。
本論文では,提案手法の基礎となる理論を示し,推定プロセスの性能を示す。
関連論文リスト
- Fast Redescription Mining Using Locality-Sensitive Hashing [1.126524823245055]
本稿では,既存の手法よりも高速にマッチングおよび拡張順序を実行するアルゴリズムを提案する。
我々のアルゴリズムは局所性に敏感なハッシュに基づいており、数値属性の離散化を扱うための調整されたアプローチである。
論文 参考訳(メタデータ) (2024-06-06T15:13:48Z) - Mining Weighted Sequential Patterns in Incremental Uncertain Databases [2.668038211242538]
我々は不確実なデータベースに頻繁なシーケンスをマイニングするアルゴリズムを開発した。
データベースがインクリメンタルな場合、マイニングのための2つの新しい手法を提案しました。
論文 参考訳(メタデータ) (2024-03-31T17:32:08Z) - Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - Quantum Algorithm for Researching the Nearest (QARN) [0.0]
量子コンピューティングは、量子ビット、量子ビットおよびそれらの特徴的な性質を持つ並列コンピューティングの魅力的な代替品として機能する。
本論文で提案する量子アルゴリズムは,初期要素を重ね合わせに格納することにより,最良(ランダムなデータ配列内の各要素に最も近い)探索を可能にする。
これにより、すべての要素に対して同時に検索操作を実行でき、RAMの量を節約できる。
論文 参考訳(メタデータ) (2023-04-21T14:21:09Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - A Generic Algorithm for Top-K On-Shelf Utility Mining [47.729883172648876]
オンシェルフユーティリティマイニング(OSUM)は、データマイニングにおける新たな研究方向である。
販売期間中に高い相対効用を有するアイテムセットを発見することを目的としている。
オンシェルフ高ユーティリティアイテムセットの適切な量をマイニングするための最小限の閾値ミニユーティリティを定義するのは難しい。
そこで我々はTop-k On-Shelf hIgh-utility patternsをマイニングするための汎用アルゴリズムTOITを提案する。
論文 参考訳(メタデータ) (2022-08-27T03:08:00Z) - Memory Bounds for the Experts Problem [53.67419690563877]
専門家のアドバイスによるオンライン学習は、逐次予測の根本的な問題である。
目標は、予測を処理し、最小コストで予測を行うことです。
アルゴリズムは、そのセットでもっとも優れた専門家と比較してどれだけうまく機能するかによって判断される。
論文 参考訳(メタデータ) (2022-04-21T01:22:18Z) - Triangle and Four Cycle Counting with Predictions in Graph Streams [59.05440236993604]
三角形の数と4サイクルを推定するための,データ駆動型ワンパスストリーミングアルゴリズムを提案する。
従来の"古典的"アルゴリズムを改善するために、ストリーム要素の特定の特性を予測できるトレーニングされたオラクルを使用します。
提案手法は,従来のマルチパスおよびランダム順序ストリーミングアルゴリズムを特殊なケースとみなすことができるため,従来の"古典的"ストリーミングアルゴリズムの取り組みを拡大する。
論文 参考訳(メタデータ) (2022-03-17T19:26:00Z) - Efficient and Local Parallel Random Walks [21.29022677162416]
ランダムウォークは、多くの機械学習アルゴリズムで使用される基本的なプリミティブである。
ランダムウォークを効率的に局所的に構築することで,この制限を克服するアルゴリズムを提案する。
本手法はメモリとラウンド効率の両方で,特に並列局所クラスタリングアルゴリズムを効率よく実現している。
論文 参考訳(メタデータ) (2021-12-01T17:06:11Z) - Correlation Clustering in Constant Many Parallel Rounds [42.10280805559555]
相関クラスタリングは教師なし学習において中心的なトピックであり、MLやデータマイニングに多くの応用がある。
本研究では,従来よりもかなり高速な超並列計算(MPC)アルゴリズムを提案する。
我々のアルゴリズムは,ノード数にメモリサブリニアを持つマシンを使用し,一定回数のラウンドでのみ実行しながら,一定の近似を返す。
論文 参考訳(メタデータ) (2021-06-15T21:45:45Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。