論文の概要: Memory-Efficient Sequential Pattern Mining with Hybrid Tries
- arxiv url: http://arxiv.org/abs/2202.06834v3
- Date: Sat, 27 Jul 2024 17:22:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 01:36:13.097463
- Title: Memory-Efficient Sequential Pattern Mining with Hybrid Tries
- Title(参考訳): ハイブリッドトライを用いたメモリ効率の良いシーケンスパターンマイニング
- Authors: Amin Hosseininasab, Willem-Jan van Hoeve, Andre A. Cire,
- Abstract要約: 本稿では,逐次パターンマイニング(SPM)のためのメモリ効率向上手法を提案する。
大規模なデータセットでは、256GBのシステムメモリ内で唯一の能力を持つSPMアプローチであり、メモリ消費の1.7TBを節約できる可能性がある。
- 参考スコア(独自算出の注目度): 3.1747517745997014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops a memory-efficient approach for Sequential Pattern Mining (SPM), a fundamental topic in knowledge discovery that faces a well-known memory bottleneck for large data sets. Our methodology involves a novel hybrid trie data structure that exploits recurring patterns to compactly store the data set in memory; and a corresponding mining algorithm designed to effectively extract patterns from this compact representation. Numerical results on small to medium-sized real-life test instances show an average improvement of 85% in memory consumption and 49% in computation time compared to the state of the art. For large data sets, our algorithm stands out as the only capable SPM approach within 256GB of system memory, potentially saving 1.7TB in memory consumption.
- Abstract(参考訳): 本稿では,大規模データセットにおいてよく知られたメモリボトルネックに直面する知識発見の基本的なトピックである逐次パターンマイニング(SPM)のメモリ効率向上手法を開発する。
提案手法は,メモリ上にデータセットを格納する繰り返しパターンを利用した新しいハイブリッドトレーデータ構造と,このコンパクト表現からパターンを効果的に抽出するマイニングアルゴリズムを含む。
小~中規模の実生活テストインスタンスの数値結果から, メモリ消費量が85%, 計算時間が49%向上した。
大規模なデータセットでは、256GBのシステムメモリ内で唯一の能力を持つSPMアプローチであり、メモリ消費の1.7TBを節約できる可能性がある。
関連論文リスト
- An Efficient Procedure for Computing Bayesian Network Structure Learning [0.9208007322096532]
本稿では,段階的にレベル付けされたスコアリング手法に基づいて,グローバルに最適なベイズネットワーク構造探索アルゴリズムを提案する。
実験結果から,本手法はメモリのみを使用する場合,ピークメモリ使用量を削減するだけでなく,計算効率も向上することが示された。
論文 参考訳(メタデータ) (2024-07-24T07:59:18Z) - tSPM+; a high-performance algorithm for mining transitive sequential
patterns from clinical data [5.340674706271038]
本稿では,tSPMアルゴリズムの高性能な実装であるtSPM+アルゴリズムについて述べる。
tSPM+アルゴリズムは最大980倍の高速化と最大48倍のメモリ消費向上を実現している。
論文 参考訳(メタデータ) (2023-09-08T17:47:31Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - HUSP-SP: Faster Utility Mining on Sequence Data [48.0426095077918]
高実用性シーケンシャルパターンマイニング (HUSPM) が重要視されている。
シークエンスプロジェクション(seqPro)と呼ばれるコンパクトな構造を設計し、シークエンスプロ構造(HUSP-SP)を用いた効率的なアルゴリズムを提案する。
HUSP-SPは, 実行時間, メモリ使用量, 検索空間のプルーニング効率, スケーラビリティにおいて, 最先端のアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2022-12-29T10:56:17Z) - Dynamic Ensemble Size Adjustment for Memory Constrained Mondrian Forest [0.0]
本稿では,メモリ制約下では,木に基づくアンサンブル分類器のサイズを増大させることで,その性能が悪化することを示す。
データストリーム上でメモリバウンドのモンドリアン林に最適なアンサンブルサイズが存在することを実験的に示す。
本手法は,安定なデータセットに対して,最適な大きさのモンドリアン林の性能の最大95%を達成できると結論付けた。
論文 参考訳(メタデータ) (2022-10-11T18:05:58Z) - TaSPM: Targeted Sequential Pattern Mining [53.234101208024335]
本稿では,高速CM-SPAMアルゴリズムに基づく汎用フレームワークTaSPMを提案する。
また,マイニングプロセスにおける無意味な操作を減らすために,いくつかのプルーニング戦略を提案する。
実験の結果,新たなターゲットマイニングアルゴリズムであるTaSPMは実行時間を短縮し,メモリ消費を低減できることがわかった。
論文 参考訳(メタデータ) (2022-02-26T17:49:47Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。
本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。
本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。
3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-24T02:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。