論文の概要: Hashing for Fast Pattern Set Selection
- arxiv url: http://arxiv.org/abs/2507.08745v1
- Date: Fri, 11 Jul 2025 16:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.436588
- Title: Hashing for Fast Pattern Set Selection
- Title(参考訳): 高速パターンセット選択のためのハッシュ
- Authors: Maiju Karjalainen, Pauli Miettinen,
- Abstract要約: パターンセットマイニングは、すべてのパターンではなく、優れたパターンセットを見つけるタスクです。
我々は、ハッシュベースのアプローチが標準の欲求アルゴリズムよりもはるかに高速であることを示す。
- 参考スコア(独自算出の注目度): 1.2430809884830318
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pattern set mining, which is the task of finding a good set of patterns instead of all patterns, is a fundamental problem in data mining. Many different definitions of what constitutes a good set have been proposed in recent years. In this paper, we consider the reconstruction error as a proxy measure for the goodness of the set, and concentrate on the adjacent problem of how to find a good set efficiently. We propose a method based on bottom-k hashing for efficiently selecting the set and extend the method for the common case where the patterns might only appear in approximate form in the data. Our approach has applications in tiling databases, Boolean matrix factorization, and redescription mining, among others. We show that our hashing-based approach is significantly faster than the standard greedy algorithm while obtaining almost equally good results in both synthetic and real-world data sets.
- Abstract(参考訳): すべてのパターンの代わりにパターンの適切なセットを見つけるタスクであるパターンセットマイニングは、データマイニングの根本的な問題である。
良い集合を構成するものの多くの異なる定義が近年提案されている。
本稿では,集合の良さを代行する尺度として再構成誤差を考慮し,良質集合の発見方法に関する隣接問題に集中する。
本稿では,ボトム・クッシングに基づく手法を提案し,データセットを効率的に選択し,データ中のパターンが近似形式でのみ現れるような場合の手法を拡張する。
提案手法は, タイリングデータベース, ブール行列分解, 再記述マイニングなどに応用されている。
我々のハッシュベースのアプローチは、標準的なグレディアルゴリズムよりもはるかに高速であり、合成と実の両方のデータセットでほぼ等しく良い結果が得られることを示す。
関連論文リスト
- Near Optimal Inference for the Best-Performing Algorithm [6.5268245109828005]
本稿では,サブセット選択問題に対する新しい枠組みを提案する。
我々は、現在知られている手法を大幅に改善する高信頼と有限サンプルスキームを提供する。
論文 参考訳(メタデータ) (2025-08-07T09:08:06Z) - Training Greedy Policy for Proposal Batch Selection in Expensive Multi-Objective Combinatorial Optimization [52.80408805368928]
本稿では,バッチ取得のための新しいグリーディ型サブセット選択アルゴリズムを提案する。
赤蛍光タンパク質に関する実験により,提案手法は1.69倍少ないクエリでベースライン性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-06-21T05:57:08Z) - HARRIS: Hybrid Ranking and Regression Forests for Algorithm Selection [75.84584400866254]
両アプローチの強みを両アプローチの弱さを緩和しつつ組み合わせ, 特殊林を利用した新しいアルゴリズムセレクタを提案する。
HARRISの決定は、ハイブリッドランキングと回帰損失関数に基づいて最適化された木を作成する森林モデルに基づいている。
論文 参考訳(メタデータ) (2022-10-31T14:06:11Z) - Towards Target High-Utility Itemsets [2.824395407508717]
応用インテリジェンスでは、ユーティリティ駆動型パターン探索アルゴリズムは、データベースの洞察力と有用なパターンを識別することができる。
重要な研究課題として、ターゲットとした高ユーティリティアイテムセットマイニングが登場している。
本稿では,マイニングプロセス中に高ユーティリティなアイテムセットを迅速にマッチングしてターゲットパターンを選択することができるTHUIMを提案する。
論文 参考訳(メタデータ) (2022-06-09T18:42:58Z) - Learning to Hash Naturally Sorts [84.90210592082829]
そこで我々はNaturely-Sorted Hashing (NSH)を導入し,最終結果のソートによる深層ハッシュモデルのトレーニングを行った。
NSHはサンプルのハッシュコードのハミング距離をソートし、それに従って自己教師付きトレーニングのための潜伏した表現を収集する。
Sorted Noise-Contrastive Estimation (SortedNCE) の新たな損失について述べる。
論文 参考訳(メタデータ) (2022-01-31T16:19:02Z) - SLOSH: Set LOcality Sensitive Hashing via Sliced-Wasserstein Embeddings [18.916058638077274]
本稿では,ANN (Non-parametric and data-independent learning from set-structured data using almost near neighbor (ANN) solutions。
Sliced-Wasserstein set embedding as a computerly efficient "set-2-vector" mechanism that possible downstream ANN。
本稿では,SLOSH (Set-LOcality Sensitive Hashing) と呼ばれるアルゴリズムの有効性を,様々なデータセットで示す。
論文 参考訳(メタデータ) (2021-12-11T00:10:05Z) - Learning to Hash Robustly, with Guarantees [79.68057056103014]
本稿では,理論的アルゴリズムと本質的に一致する最悪ケース保証を持つハミング空間のためのNSアルゴリズムを設計する。
理論的にも実用的にも、与えられたデータセットに対してアルゴリズムが最適化できる能力を評価する。
我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリを、1.8倍と2.1倍の精度でリコールする。
論文 参考訳(メタデータ) (2021-08-11T20:21:30Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - A Genetic Algorithm for Obtaining Memory Constrained Near-Perfect
Hashing [0.0]
本稿では,検索時の比較回数の最小化と,総コレクションサイズを最小化することに焦点を当てたハッシュテーブルに基づくアプローチを提案する。
論文は、ほぼ完全なハッシュはバイナリ検索よりも高速であるが、完全なハッシュよりも少ないメモリを使用することを示した。
論文 参考訳(メタデータ) (2020-07-16T12:57:15Z) - Procrustean Orthogonal Sparse Hashing [3.302605292858623]
昆虫の嗅覚は, スパースハッシュと構造的に, 機能的に類似していることが示されている。
本稿ではこれらの知見を統一する新しい方法であるPOSH(Procrustean Orthogonal Sparse Hashing)を提案する。
本稿では,これらの欠陥に対処する2つの新しい手法,Binary OSLとSphericalHashを提案する。
論文 参考訳(メタデータ) (2020-06-08T18:09:33Z) - Image Hashing by Minimizing Discrete Component-wise Wasserstein Distance [12.968141477410597]
競合するオートエンコーダは、バランスよく高品質なハッシュコードを生成する堅牢で局所性を保存するハッシュ関数を暗黙的に学習できることが示されている。
既存の逆ハッシュ法は、大規模な画像検索に非効率である。
本稿では,サンプル要求と計算コストを大幅に低減した,新しい対向型オートエンコーダハッシュ手法を提案する。
論文 参考訳(メタデータ) (2020-02-29T00:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。