論文の概要: Memory Efficient Tries for Sequential Pattern Mining
- arxiv url: http://arxiv.org/abs/2202.06834v1
- Date: Sun, 6 Feb 2022 16:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-20 16:30:57.028365
- Title: Memory Efficient Tries for Sequential Pattern Mining
- Title(参考訳): 逐次パターンマイニングのためのメモリ効率向上の試み
- Authors: Amin Hosseininasab, Willem-Jan van Hoeve, Andre A. Cire
- Abstract要約: 我々は、よく知られたメモリボトルネックに直面している知識発見の基本的なトピックであるシーケンスパターンマイニング(SPM)に焦点を当てる。
我々は、大規模データセットの順序を効果的にマイニングできるトリエベースのデータセットモデルと関連するマイニングアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 2.320417845168326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid and continuous growth of data has increased the need for scalable
mining algorithms in unsupervised learning and knowledge discovery. In this
paper, we focus on Sequential Pattern Mining (SPM), a fundamental topic in
knowledge discovery that faces a well-known memory bottleneck. We examine
generic dataset modeling techniques and show how they can be used to improve
SPM algorithms in time and memory usage. In particular, we develop trie-based
dataset models and associated mining algorithms that can represent as well as
effectively mine orders of magnitude larger datasets compared to the state of
the art. Numerical results on real-life large-size test instances show that our
algorithms are also faster and more memory efficient in practice.
- Abstract(参考訳): データの迅速かつ継続的な成長により、教師なし学習と知識発見におけるスケーラブルなマイニングアルゴリズムの必要性が高まっている。
本稿では、よく知られたメモリボトルネックに直面した知識発見の基本的なトピックであるシーケンスパターンマイニング(SPM)に焦点を当てる。
汎用データセットモデリング手法について検討し,spmアルゴリズムの時間とメモリ使用率の改善に利用できることを示す。
特に,trieベースのデータセットモデルと関連するマイニングアルゴリズムを開発し,そのアルゴリズムは,最先端と比較して,桁違いに大きなデータセットを効果的にマイニングすることができる。
実生活の大規模テストインスタンスにおける数値結果は、我々のアルゴリズムが実際より高速でメモリ効率が良いことを示している。
関連論文リスト
- Randomized Dimension Reduction with Statistical Guarantees [0.27195102129095]
この論文は、高速な実行と効率的なデータ利用のためのアルゴリズムをいくつか探求している。
一般化と分散性を向上する様々なデータ拡張を組み込んだ学習アルゴリズムに着目する。
具体的には、第4章では、データ拡張整合正則化のための複雑性分析のサンプルを提示する。
論文 参考訳(メタデータ) (2023-10-03T02:01:39Z) - tSPM+; a high-performance algorithm for mining transitive sequential
patterns from clinical data [5.340674706271038]
本稿では,tSPMアルゴリズムの高性能な実装であるtSPM+アルゴリズムについて述べる。
tSPM+アルゴリズムは最大980倍の高速化と最大48倍のメモリ消費向上を実現している。
論文 参考訳(メタデータ) (2023-09-08T17:47:31Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - HUSP-SP: Faster Utility Mining on Sequence Data [48.0426095077918]
高実用性シーケンシャルパターンマイニング (HUSPM) が重要視されている。
シークエンスプロジェクション(seqPro)と呼ばれるコンパクトな構造を設計し、シークエンスプロ構造(HUSP-SP)を用いた効率的なアルゴリズムを提案する。
HUSP-SPは, 実行時間, メモリ使用量, 検索空間のプルーニング効率, スケーラビリティにおいて, 最先端のアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2022-12-29T10:56:17Z) - Dynamic Ensemble Size Adjustment for Memory Constrained Mondrian Forest [0.0]
本稿では,メモリ制約下では,木に基づくアンサンブル分類器のサイズを増大させることで,その性能が悪化することを示す。
データストリーム上でメモリバウンドのモンドリアン林に最適なアンサンブルサイズが存在することを実験的に示す。
本手法は,安定なデータセットに対して,最適な大きさのモンドリアン林の性能の最大95%を達成できると結論付けた。
論文 参考訳(メタデータ) (2022-10-11T18:05:58Z) - TaSPM: Targeted Sequential Pattern Mining [53.234101208024335]
本稿では,高速CM-SPAMアルゴリズムに基づく汎用フレームワークTaSPMを提案する。
また,マイニングプロセスにおける無意味な操作を減らすために,いくつかのプルーニング戦略を提案する。
実験の結果,新たなターゲットマイニングアルゴリズムであるTaSPMは実行時間を短縮し,メモリ消費を低減できることがわかった。
論文 参考訳(メタデータ) (2022-02-26T17:49:47Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。
本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。
本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。
3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-24T02:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。