論文の概要: Mint: MDL-based approach for Mining INTeresting Numerical Pattern Sets
- arxiv url: http://arxiv.org/abs/2011.14843v1
- Date: Mon, 30 Nov 2020 14:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:38:53.229309
- Title: Mint: MDL-based approach for Mining INTeresting Numerical Pattern Sets
- Title(参考訳): Mint: MDLに基づく数値パターン集合のマイニング
- Authors: Tatiana Makhalova, Sergei O. Kuznetsov, Amedeo Napoli
- Abstract要約: 我々は、数値データセットをマイニングする効率的なMDLベースのアルゴリズムMintを提案する。
論文で示された実験では、MintがSlimとRealKrimpの競合より優れていることを示した。
- 参考スコア(独自算出の注目度): 8.583397492080985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pattern mining is well established in data mining research, especially for
mining binary datasets. Surprisingly, there is much less work about numerical
pattern mining and this research area remains under-explored. In this paper, we
propose Mint, an efficient MDL-based algorithm for mining numerical datasets.
The MDL principle is a robust and reliable framework widely used in pattern
mining, and as well in subgroup discovery. In Mint we reuse MDL for discovering
useful patterns and returning a set of non-redundant overlapping patterns with
well-defined boundaries and covering meaningful groups of objects. Mint is not
alone in the category of numerical pattern miners based on MDL. In the
experiments presented in the paper we show that Mint outperforms competitors
among which Slim and RealKrimp.
- Abstract(参考訳): パターンマイニングはデータマイニング研究、特にバイナリデータセットのマイニングにおいて確立されている。
驚くべきことに、数値パターンマイニングに関する作業は少なく、この研究領域は未調査のままである。
本稿では,数値データセットをマイニングする効率的なMDLアルゴリズムMintを提案する。
MDL原則は、パターンマイニングやサブグループ発見で広く使われている堅牢で信頼性の高いフレームワークである。
Mintでは、有用なパターンを発見し、明確に定義された境界を持つ非冗長な重複パターンのセットを返却し、意味のあるオブジェクトのグループをカバーするためにMDLを再利用します。
MDLに基づく数値パターンマイナのカテゴリでは,Mintのみではない。
論文で示された実験では、MintがSlimとRealKrimpの競合より優れていることを示した。
関連論文リスト
- MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - A Generic Algorithm for Top-K On-Shelf Utility Mining [47.729883172648876]
オンシェルフユーティリティマイニング(OSUM)は、データマイニングにおける新たな研究方向である。
販売期間中に高い相対効用を有するアイテムセットを発見することを目的としている。
オンシェルフ高ユーティリティアイテムセットの適切な量をマイニングするための最小限の閾値ミニユーティリティを定義するのは難しい。
そこで我々はTop-k On-Shelf hIgh-utility patternsをマイニングするための汎用アルゴリズムTOITを提案する。
論文 参考訳(メタデータ) (2022-08-27T03:08:00Z) - Itemset Utility Maximization with Correlation Measure [8.581840054840335]
高ユーティリティアイテムセットマイニング(HUIM)は、興味深いが隠された情報(例えば、利益とリスク)を見つけるために使用される。
本稿では,Coium(Coium)を用いたアイテムセット実用性最大化という新しいアルゴリズムを提案する。
2つの上界と4つのプルーニング戦略を用いて探索空間を効果的にプルークする。また、適用された上界を線形時間と空間で計算・保存するために、ユーティリティービンと呼ばれる簡潔なアレイ構造を用いる。
論文 参考訳(メタデータ) (2022-08-26T10:06:24Z) - Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution
Detection [55.028065567756066]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイすることの重要性から、マシンラーニングコミュニティから注目を集めている。
本稿では,特徴量の分布をモデル化した不確実な定量化手法を提案する。
バッチアンサンブルニューラルネットワーク(BE-SNN)の構築と機能崩壊問題の克服を目的として,効率的なアンサンブル機構,すなわちバッチアンサンブルを組み込んだ。
We show that BE-SNNs yield superior performance on the Two-Moons dataset, the FashionMNIST vs MNIST dataset, FashionM。
論文 参考訳(メタデータ) (2022-06-26T16:00:22Z) - TaSPM: Targeted Sequential Pattern Mining [53.234101208024335]
本稿では,高速CM-SPAMアルゴリズムに基づく汎用フレームワークTaSPMを提案する。
また,マイニングプロセスにおける無意味な操作を減らすために,いくつかのプルーニング戦略を提案する。
実験の結果,新たなターゲットマイニングアルゴリズムであるTaSPMは実行時間を短縮し,メモリ消費を低減できることがわかった。
論文 参考訳(メタデータ) (2022-02-26T17:49:47Z) - Flexible Pattern Discovery and Analysis [2.075126998649103]
フレキシブルな高ユーティリティ占有パターンのマイニングのためのアルゴリズムを導入する。
提案アルゴリズムは,実世界のデータセットと合成データセットの両方に対して,抽出したパターンの長さを効果的に制御することができる。
論文 参考訳(メタデータ) (2021-11-24T01:25:15Z) - Multi-source Data Mining for e-Learning [3.8673630752805432]
パターンマイニングは、データから興味深い頻繁なパターンを抽出する。
データ量の増加に伴い、この領域では、マルチソースおよび異種データが新たな課題となっている。
この課題は、興味深い頻繁なパターンを抽出するために、マルチソースデータをマイニングする作業の中心となるものです。
論文 参考訳(メタデータ) (2020-09-17T15:39:45Z) - The Minimum Description Length Principle for Pattern Mining: A Survey [0.07614628596146598]
パターンマイニングに適用される最小記述長の原理について述べる。
情報理論とコーディングから関連する概念を概説した後、様々な種類のデータやパターンをマイニングするためのMDLベースの手法を概説する。
論文 参考訳(メタデータ) (2020-07-28T06:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。