論文の概要: Itemset Utility Maximization with Correlation Measure
- arxiv url: http://arxiv.org/abs/2208.12551v1
- Date: Fri, 26 Aug 2022 10:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:54:09.215479
- Title: Itemset Utility Maximization with Correlation Measure
- Title(参考訳): 相関測定によるアイテムセットユーティリティの最大化
- Authors: Jiahui Chen, Yixin Xu, Shicheng Wan, Wensheng Gan, and Jerry Chun-Wei
Lin
- Abstract要約: 高ユーティリティアイテムセットマイニング(HUIM)は、興味深いが隠された情報(例えば、利益とリスク)を見つけるために使用される。
本稿では,Coium(Coium)を用いたアイテムセット実用性最大化という新しいアルゴリズムを提案する。
2つの上界と4つのプルーニング戦略を用いて探索空間を効果的にプルークする。また、適用された上界を線形時間と空間で計算・保存するために、ユーティリティービンと呼ばれる簡潔なアレイ構造を用いる。
- 参考スコア(独自算出の注目度): 8.581840054840335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important data mining technology, high utility itemset mining (HUIM) is
used to find out interesting but hidden information (e.g., profit and risk).
HUIM has been widely applied in many application scenarios, such as market
analysis, medical detection, and web click stream analysis. However, most
previous HUIM approaches often ignore the relationship between items in an
itemset. Therefore, many irrelevant combinations (e.g., \{gold, apple\} and
\{notebook, book\}) are discovered in HUIM. To address this limitation, many
algorithms have been proposed to mine correlated high utility itemsets
(CoHUIs). In this paper, we propose a novel algorithm called the Itemset
Utility Maximization with Correlation Measure (CoIUM), which considers both a
strong correlation and the profitable values of the items. Besides, the novel
algorithm adopts a database projection mechanism to reduce the cost of database
scanning. Moreover, two upper bounds and four pruning strategies are utilized
to effectively prune the search space. And a concise array-based structure
named utility-bin is used to calculate and store the adopted upper bounds in
linear time and space. Finally, extensive experimental results on dense and
sparse datasets demonstrate that CoIUM significantly outperforms the
state-of-the-art algorithms in terms of runtime and memory consumption.
- Abstract(参考訳): 重要なデータマイニング技術として、興味深いが隠された情報(例えば、利益とリスク)を見つけるために、高ユーティリティアイテムセットマイニング(HUIM)が用いられる。
HUIMは、市場分析、医療検出、Webクリックストリーム分析など、多くのアプリケーションシナリオで広く利用されている。
しかし、以前のHUIMアプローチはアイテムセット内のアイテム間の関係を無視することが多い。
したがって、HUIM では多くの無関係な組合せ (例: \{gold, apple\} と \{notebook, book\}) が発見される。
この制限に対処するため、相関の高い高ユーティリティアイテムセット(CoHUI)をマイニングするアルゴリズムが多数提案されている。
本稿では,相関尺度(coium)を用いたアイテムセット効用最大化法(itemet utility maximization with correlation measure)という新しいアルゴリズムを提案する。
さらに,新たなアルゴリズムでは,データベーススキャニングコストを削減するために,データベースプロジェクション機構を採用する。
また、2つの上界と4つのプルーニング戦略を用いて探索空間を効果的にプルーニングする。
また,適用上界を線形時間と空間で計算・保存するために,ユーティリティービンと呼ばれる簡潔なアレイ構造を用いる。
最後に、高密度でスパースなデータセットに関する広範な実験結果は、coiumが実行時とメモリ消費の点で最先端のアルゴリズムを大きく上回っていることを示している。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。
BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。
本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:45:17Z) - HUSP-SP: Faster Utility Mining on Sequence Data [48.0426095077918]
高実用性シーケンシャルパターンマイニング (HUSPM) が重要視されている。
シークエンスプロジェクション(seqPro)と呼ばれるコンパクトな構造を設計し、シークエンスプロ構造(HUSP-SP)を用いた効率的なアルゴリズムを提案する。
HUSP-SPは, 実行時間, メモリ使用量, 検索空間のプルーニング効率, スケーラビリティにおいて, 最先端のアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2022-12-29T10:56:17Z) - Towards Sequence Utility Maximization under Utility Occupancy Measure [53.234101208024335]
データベースでは、ユーティリティは各パターンに対して柔軟な基準であるが、ユーティリティ共有を無視するため、より絶対的な基準である。
まず、まず、シーケンスデータに対するユーティリティの占有を定義し、高ユーティリティ・アクシデント・パターンマイニングの問題を提起する。
SuMU(Sequence Utility Maximization with Utility cccupancy measure)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:28:53Z) - A Generic Algorithm for Top-K On-Shelf Utility Mining [47.729883172648876]
オンシェルフユーティリティマイニング(OSUM)は、データマイニングにおける新たな研究方向である。
販売期間中に高い相対効用を有するアイテムセットを発見することを目的としている。
オンシェルフ高ユーティリティアイテムセットの適切な量をマイニングするための最小限の閾値ミニユーティリティを定義するのは難しい。
そこで我々はTop-k On-Shelf hIgh-utility patternsをマイニングするための汎用アルゴリズムTOITを提案する。
論文 参考訳(メタデータ) (2022-08-27T03:08:00Z) - Temporal Fuzzy Utility Maximization with Remaining Measure [1.642022526257133]
TFUMと呼ばれる新しい一相時間ファジィユーティリティーアイテムセットマイニング手法を提案する。
TFUMは、時間的ファジィリストを更新して、メモリ内の潜在的高時間的ファジィユーティリティアイテムセットに関する情報を少なくする。
その後、短い時間で本当に興味深いパターンの完全なセットを発見する。
論文 参考訳(メタデータ) (2022-08-26T05:09:56Z) - Efficient and Accurate Top-$K$ Recovery from Choice Data [1.14219428942199]
レコメンデーションシステムのようないくつかのアプリケーションでは、統計学者は主に大量のアイテムから上位のアイテムの集合を回収することに興味がある。
そこで本稿では,K$-recoveryの高速かつ高精度なランキングアルゴリズムとして,選択に基づくボルダカウントアルゴリズムを提案する。
選択に基づくボルダカウントアルゴリズムは,多種多様なランダム効用モデルの下で,上位$Kの回収に最適なサンプル複雑性を有することを示す。
論文 参考訳(メタデータ) (2022-06-23T22:05:08Z) - TargetUM: Targeted High-Utility Itemset Querying [1.022709144903362]
本論文は,ターゲットベースHUIM問題を初めて提案し,目的とするユーティリティマイニングタスクの明確な定式化を提供する。
木をベースとしたTarget-based high-Utility iteMset querying using (TargetUM)を提案する。
このアルゴリズムは、レキソグラフィークエリツリーと3つの効果的なプルーニング戦略を用いて、鉱業効率を向上する。
論文 参考訳(メタデータ) (2021-10-30T18:55:28Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。