論文の概要: HUSP-SP: Faster Utility Mining on Sequence Data
- arxiv url: http://arxiv.org/abs/2212.14255v1
- Date: Thu, 29 Dec 2022 10:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 17:16:20.738862
- Title: HUSP-SP: Faster Utility Mining on Sequence Data
- Title(参考訳): HUSP-SP: シーケンスデータによる高速なユーティリティマイニング
- Authors: Chunkai Zhang, Yuting Yang, Zilin Du, Wensheng Gan, and Philip S. Yu
- Abstract要約: 高実用性シーケンシャルパターンマイニング (HUSPM) が重要視されている。
シークエンスプロジェクション(seqPro)と呼ばれるコンパクトな構造を設計し、シークエンスプロ構造(HUSP-SP)を用いた効率的なアルゴリズムを提案する。
HUSP-SPは, 実行時間, メモリ使用量, 検索空間のプルーニング効率, スケーラビリティにおいて, 最先端のアルゴリズムを著しく上回っている。
- 参考スコア(独自算出の注目度): 48.0426095077918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-utility sequential pattern mining (HUSPM) has emerged as an important
topic due to its wide application and considerable popularity. However, due to
the combinatorial explosion of the search space when the HUSPM problem
encounters a low utility threshold or large-scale data, it may be
time-consuming and memory-costly to address the HUSPM problem. Several
algorithms have been proposed for addressing this problem, but they still cost
a lot in terms of running time and memory usage. In this paper, to further
solve this problem efficiently, we design a compact structure called sequence
projection (seqPro) and propose an efficient algorithm, namely discovering
high-utility sequential patterns with the seqPro structure (HUSP-SP). HUSP-SP
utilizes the compact seq-array to store the necessary information in a sequence
database. The seqPro structure is designed to efficiently calculate candidate
patterns' utilities and upper bound values. Furthermore, a new upper bound on
utility, namely tighter reduced sequence utility (TRSU) and two pruning
strategies in search space, are utilized to improve the mining performance of
HUSP-SP. Experimental results on both synthetic and real-life datasets show
that HUSP-SP can significantly outperform the state-of-the-art algorithms in
terms of running time, memory usage, search space pruning efficiency, and
scalability.
- Abstract(参考訳): 高度なシーケンシャルパターンマイニング(huspm)は、広く応用され、かなりの人気があるため、重要なトピックとなっている。
しかし,HUSPM問題と低効用閾値や大規模データに遭遇した場合の検索空間の組合せ爆発により,HUSPM問題に対処するには時間とメモリコストがかかる可能性がある。
この問題に対処するためにいくつかのアルゴリズムが提案されているが、実行時間とメモリ使用量に関してはまだ多くのコストがかかる。
本稿では,この問題をより効率的に解くために,シークエンスプロジェクション(seqPro)と呼ばれるコンパクトな構造を設計し,シークエンスプロ構造(HUSP-SP)で高効率なシークエンスパターンを発見するアルゴリズムを提案する。
HUSP-SPは、コンパクトなSeq-arrayを使用して、必要な情報をシーケンスデータベースに格納する。
seqPro構造は、候補パターンのユーティリティと上限値の効率よく計算するように設計されている。
さらに, HUSP-SPのマイニング性能を向上させるため, 検索空間におけるTRSU(T tighter reduced sequence utility)と2つのプルーニング戦略を新たに導入した。
合成データと実生活データの両方における実験結果は、husp-spが実行時間、メモリ使用量、検索空間の刈り取り効率、スケーラビリティの点で最先端アルゴリズムを大幅に上回ることを示している。
関連論文リスト
- AcceleratedLiNGAM: Learning Causal DAGs at the speed of GPUs [57.12929098407975]
既存の因果探索法を効率的に並列化することにより,数千次元まで拡張可能であることを示す。
具体的には、DirectLiNGAMの因果順序付けサブプロデューサに着目し、GPUカーネルを実装して高速化する。
これにより、遺伝子介入による大規模遺伝子発現データに対する因果推論にDirectLiNGAMを適用することで、競争結果が得られる。
論文 参考訳(メタデータ) (2024-03-06T15:06:11Z) - A Projected Upper Bound for Mining High Utility Patterns from
Interval-Based Event Sequences [0.0]
本稿では、間隔に基づくイベントのシーケンスから検出されたパターンの実用性に基づく投影上界を提案する。
実験の結果,新しい上限値により,実行時間とメモリ使用量の両方の観点からHUIPMinerの性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-12-21T21:06:07Z) - Towards Sequence Utility Maximization under Utility Occupancy Measure [53.234101208024335]
データベースでは、ユーティリティは各パターンに対して柔軟な基準であるが、ユーティリティ共有を無視するため、より絶対的な基準である。
まず、まず、シーケンスデータに対するユーティリティの占有を定義し、高ユーティリティ・アクシデント・パターンマイニングの問題を提起する。
SuMU(Sequence Utility Maximization with Utility cccupancy measure)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:28:53Z) - Towards Correlated Sequential Rules [4.743965372344134]
高実用性シーケンシャルルールマイニング(HUSRM)は、結果のシーケンシャルパターンの発生を予測できる信頼度や確率を調査するために設計された。
HUSRMと呼ばれる既存のアルゴリズムは、生成されたシーケンシャルルール間の相関を無視しながら、すべての許容ルールを抽出することに制限されている。
本稿では,HUSRMに相関の概念を統合するために,CoUSR(Cocorlation High-utility Sequence Rule Minr)と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-27T17:27:23Z) - Totally-ordered Sequential Rules for Utility Maximization [49.57003933142011]
提案するアルゴリズムはTotalSRとTotalSR+である。
TotalSRは、先行するサポートを効率的に計算できるユーティリティテーブルと、残りのユーティリティをシーケンスのO(1)時間で計算できるユーティリティプレフィックスの和リストを作成する。
実データと合成データの両方において、TotalSRはプルーニング戦略の少ないアルゴリズムよりもはるかに効率的であることを示す実験結果が多数存在する。
論文 参考訳(メタデータ) (2022-09-27T16:17:58Z) - A Generic Algorithm for Top-K On-Shelf Utility Mining [47.729883172648876]
オンシェルフユーティリティマイニング(OSUM)は、データマイニングにおける新たな研究方向である。
販売期間中に高い相対効用を有するアイテムセットを発見することを目的としている。
オンシェルフ高ユーティリティアイテムセットの適切な量をマイニングするための最小限の閾値ミニユーティリティを定義するのは難しい。
そこで我々はTop-k On-Shelf hIgh-utility patternsをマイニングするための汎用アルゴリズムTOITを提案する。
論文 参考訳(メタデータ) (2022-08-27T03:08:00Z) - Itemset Utility Maximization with Correlation Measure [8.581840054840335]
高ユーティリティアイテムセットマイニング(HUIM)は、興味深いが隠された情報(例えば、利益とリスク)を見つけるために使用される。
本稿では,Coium(Coium)を用いたアイテムセット実用性最大化という新しいアルゴリズムを提案する。
2つの上界と4つのプルーニング戦略を用いて探索空間を効果的にプルークする。また、適用された上界を線形時間と空間で計算・保存するために、ユーティリティービンと呼ばれる簡潔なアレイ構造を用いる。
論文 参考訳(メタデータ) (2022-08-26T10:06:24Z) - TaSPM: Targeted Sequential Pattern Mining [53.234101208024335]
本稿では,高速CM-SPAMアルゴリズムに基づく汎用フレームワークTaSPMを提案する。
また,マイニングプロセスにおける無意味な操作を減らすために,いくつかのプルーニング戦略を提案する。
実験の結果,新たなターゲットマイニングアルゴリズムであるTaSPMは実行時間を短縮し,メモリ消費を低減できることがわかった。
論文 参考訳(メタデータ) (2022-02-26T17:49:47Z) - Improving a State-of-the-Art Heuristic for the Minimum Latency Problem
with Data Mining [69.00394670035747]
ハイブリッドメタヒューリスティックスは、オペレーション研究のトレンドとなっている。
成功例は、Greedy Randomized Adaptive Search Procedures (GRASP)とデータマイニング技術を組み合わせたものだ。
論文 参考訳(メタデータ) (2019-08-28T13:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。