論文の概要: Memory-Efficient Sequential Pattern Mining with Hybrid Tries
- arxiv url: http://arxiv.org/abs/2202.06834v2
- Date: Fri, 1 Mar 2024 03:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 14:47:54.276643
- Title: Memory-Efficient Sequential Pattern Mining with Hybrid Tries
- Title(参考訳): ハイブリッドトライによるメモリ効率のよいシーケンシャルパターンマイニング
- Authors: Amin Hosseininasab, Willem-Jan van Hoeve, Andre A. Cire
- Abstract要約: 本稿では,逐次パターンマイニング(SPM)のためのメモリ効率向上手法を提案する。
実時間テストインスタンスの数値結果は、メモリ消費量が88%、計算時間が41%の平均的な改善を示している。
- 参考スコア(独自算出の注目度): 3.5681028373124066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As modern data sets continue to grow exponentially in size, the demand for
efficient mining algorithms capable of handling such large data sets becomes
increasingly imperative. This paper develops a memory-efficient approach for
Sequential Pattern Mining (SPM), a fundamental topic in knowledge discovery
that faces a well-known memory bottleneck for large data sets. Our methodology
involves a novel hybrid trie data structure that exploits recurring patterns to
compactly store the data set in memory; and a corresponding mining algorithm
designed to effectively extract patterns from this compact representation.
Numerical results on real-life test instances show an average improvement of
88% in memory consumption and 41% in computation time for small to medium-sized
data sets compared to the state of the art. Furthermore, our algorithm stands
out as the only capable SPM approach for large data sets within 256GB of system
memory.
- Abstract(参考訳): 現代のデータセットのサイズが指数関数的に増加するにつれて、このような大規模データセットを処理できる効率的なマイニングアルゴリズムの需要はますます強くなっている。
本稿では,大規模データセットのメモリボトルネックに直面する知識発見の基本的なトピックである逐次パターンマイニング(SPM)のメモリ効率向上手法を開発する。
提案手法は,再帰的パターンを活用し,データセットをメモリにコンパクトに格納する新しいハイブリッドトライデータ構造と,このコンパクト表現からパターンを効果的に抽出する対応するマイニングアルゴリズムを含む。
実生活におけるテストインスタンスの数値結果から,技術状況と比較して,メモリ消費88%,小~中規模のデータセットの計算時間41%が平均的に向上していることがわかった。
さらに,このアルゴリズムは256gbのシステムメモリ内に存在する大規模データセットに対して,唯一のspmアプローチとして注目されている。
関連論文リスト
- Randomized Dimension Reduction with Statistical Guarantees [0.27195102129095]
この論文は、高速な実行と効率的なデータ利用のためのアルゴリズムをいくつか探求している。
一般化と分散性を向上する様々なデータ拡張を組み込んだ学習アルゴリズムに着目する。
具体的には、第4章では、データ拡張整合正則化のための複雑性分析のサンプルを提示する。
論文 参考訳(メタデータ) (2023-10-03T02:01:39Z) - tSPM+; a high-performance algorithm for mining transitive sequential
patterns from clinical data [5.340674706271038]
本稿では,tSPMアルゴリズムの高性能な実装であるtSPM+アルゴリズムについて述べる。
tSPM+アルゴリズムは最大980倍の高速化と最大48倍のメモリ消費向上を実現している。
論文 参考訳(メタデータ) (2023-09-08T17:47:31Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - HUSP-SP: Faster Utility Mining on Sequence Data [48.0426095077918]
高実用性シーケンシャルパターンマイニング (HUSPM) が重要視されている。
シークエンスプロジェクション(seqPro)と呼ばれるコンパクトな構造を設計し、シークエンスプロ構造(HUSP-SP)を用いた効率的なアルゴリズムを提案する。
HUSP-SPは, 実行時間, メモリ使用量, 検索空間のプルーニング効率, スケーラビリティにおいて, 最先端のアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2022-12-29T10:56:17Z) - Dynamic Ensemble Size Adjustment for Memory Constrained Mondrian Forest [0.0]
本稿では,メモリ制約下では,木に基づくアンサンブル分類器のサイズを増大させることで,その性能が悪化することを示す。
データストリーム上でメモリバウンドのモンドリアン林に最適なアンサンブルサイズが存在することを実験的に示す。
本手法は,安定なデータセットに対して,最適な大きさのモンドリアン林の性能の最大95%を達成できると結論付けた。
論文 参考訳(メタデータ) (2022-10-11T18:05:58Z) - TaSPM: Targeted Sequential Pattern Mining [53.234101208024335]
本稿では,高速CM-SPAMアルゴリズムに基づく汎用フレームワークTaSPMを提案する。
また,マイニングプロセスにおける無意味な操作を減らすために,いくつかのプルーニング戦略を提案する。
実験の結果,新たなターゲットマイニングアルゴリズムであるTaSPMは実行時間を短縮し,メモリ消費を低減できることがわかった。
論文 参考訳(メタデータ) (2022-02-26T17:49:47Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。
本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。
本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。
3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-24T02:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。