論文の概要: Efficient Discovery of Significant Patterns with Few-Shot Resampling
- arxiv url: http://arxiv.org/abs/2406.11803v1
- Date: Mon, 17 Jun 2024 17:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 12:54:18.289460
- Title: Efficient Discovery of Significant Patterns with Few-Shot Resampling
- Title(参考訳): Few-Shot Resamplingによる重要パターンの効率的な発見
- Authors: Leonardo Pellegrina, Fabio Vandin,
- Abstract要約: バイオメディシン、バスケットマーケット分析、ソーシャルネットワークでは、ターゲットと関連するパターンが下位の人口に対して定義されているパターンを見つけることが目的である。
パターンとターゲットの関係を捉える自然な方法は、その統計的意義を考慮し、そのパターンとターゲットの間の独立性の仮説から逸脱を評価することである。
本稿では, 統計的に有意なパターンを同定し, 偽発見の確率を厳密に保証するアルゴリズムFSRを提案する。
- 参考スコア(独自算出の注目度): 9.681286056736292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant pattern mining is a fundamental task in mining transactional data, requiring to identify patterns significantly associated with the value of a given feature, the target. In several applications, such as biomedicine, basket market analysis, and social networks, the goal is to discover patterns whose association with the target is defined with respect to an underlying population, or process, of which the dataset represents only a collection of observations, or samples. A natural way to capture the association of a pattern with the target is to consider its statistical significance, assessing its deviation from the (null) hypothesis of independence between the pattern and the target. While several algorithms have been proposed to find statistically significant patterns, it remains a computationally demanding task, and for complex patterns such as subgroups, no efficient solution exists. We present FSR, an efficient algorithm to identify statistically significant patterns with rigorous guarantees on the probability of false discoveries. FSR builds on a novel general framework for mining significant patterns that captures some of the most commonly considered patterns, including itemsets, sequential patterns, and subgroups. FSR uses a small number of resampled datasets, obtained by assigning i.i.d. labels to each transaction, to rigorously bound the supremum deviation of a quality statistic measuring the significance of patterns. FSR builds on novel tight bounds on the supremum deviation that require to mine a small number of resampled datasets, while providing a high effectiveness in discovering significant patterns. As a test case, we consider significant subgroup mining, and our evaluation on several real datasets shows that FSR is effective in discovering significant subgroups, while requiring a small number of resampled datasets.
- Abstract(参考訳): 重要なパターンマイニングは、トランザクションデータのマイニングにおいて基本的なタスクであり、特定の特徴、ターゲットの値に大きく関連したパターンを特定する必要がある。
バイオメディシン、バスケットマーケット分析、ソーシャルネットワークなどのいくつかの応用において、目標は、データセットが観察の集まりやサンプルの集まりのみを表す、基礎となる人口やプロセスに関して、ターゲットとの関係が定義されるパターンを見つけることである。
パターンとターゲットの関係を捉える自然な方法は、その統計的意義を考慮し、そのパターンとターゲットの間の独立性の仮説から逸脱を評価することである。
統計学的に重要なパターンを見つけるためにいくつかのアルゴリズムが提案されているが、計算に要求されるタスクであり、サブグループのような複雑なパターンに対しては、効率的な解は存在しない。
本稿では, 統計的に有意なパターンを同定し, 偽発見の確率を厳密に保証するアルゴリズムFSRを提案する。
FSRは、アイテムセット、シーケンシャルパターン、サブグループを含む最も一般的なパターンをキャプチャする重要なパターンをマイニングするための、新しい一般的なフレームワークを構築している。
FSRは、各トランザクションにi.d.ラベルを割り当てた少数の再サンプリングデータセットを使用して、パターンの重要性を測定する品質統計量の上限偏差を厳格に拘束する。
FSRは、少数のサンプルデータセットをマイニングするために必要な上限偏差の新たな厳密な境界の上に構築され、重要なパターンを発見する上で高い有効性を提供する。
テストケースとして,有意なサブグループマイニングを検討するとともに,いくつかの実データセットに対する評価から,FSRは少数の再サンプリングデータセットを必要とするとともに,有意なサブグループ発見に有効であることが示された。
関連論文リスト
- SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Integrating Statistical Significance and Discriminative Power in Pattern
Discovery [2.1014808520898667]
提案手法は、統計的重要性と識別力の基準を最先端のアルゴリズムに統合する。
評価実験は, 品質劣化を伴わない識別力と統計的意義を顕著に向上させたパターンの発見において, 提案手法が果たす役割を示す。
論文 参考訳(メタデータ) (2024-01-22T14:51:01Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Model Stealing Attack against Graph Classification with Authenticity,
Uncertainty and Diversity [85.1927483219819]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - A Causality-Aware Pattern Mining Scheme for Group Activity Recognition
in a Pervasive Sensor Space [2.5486448837945765]
スマートスペースにおけるHARの効率的なグループアクティビティ認識手法を提案する。
ルールのセットを利用して、所定のデータストリーム内の因果関係のイベントをハイライトする。
パターンツリーアルゴリズムは成長木構造を用いて頻繁な因果パターンを抽出する。
実験結果から,提案方式は認識精度が高く,実行時のオーバーヘッドも少ないことがわかった。
論文 参考訳(メタデータ) (2023-12-01T07:54:07Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - A Global Model Approach to Robust Few-Shot SAR Automatic Target
Recognition [6.260916845720537]
ディープラーニングベースのSAR自動ターゲット認識(ATR)モデルをトレーニングするために、クラス毎に数百のラベル付きサンプルを収集できるとは限らない。
この研究は特に数発のSAR ATR問題に対処しており、興味のあるタスクをサポートするためにラベル付きサンプルがわずかである。
論文 参考訳(メタデータ) (2023-03-20T00:24:05Z) - Task Agnostic and Post-hoc Unseen Distribution Detection [27.69612483621752]
本稿では,タスク非依存かつポストホックな未確認分布検出(TAPUDD)手法を提案する。
トレーニングデータセットの特徴をクラスタ化し、すべてのクラスタからテストサンプルの最小マハラノビス距離を決定するTAP-Mahalanobisで構成されている。
提案手法は,多様なタスクにまたがる未知のサンプルを効果的に検出し,既存のベースラインと同等あるいは同等に動作することを示す。
論文 参考訳(メタデータ) (2022-07-26T17:55:15Z) - Approximate Network Motif Mining Via Graph Learning [4.2873412319680035]
ネットワークモチーフとしても知られる頻繁で構造的な部分グラフは、多くのグラフデータセットの貴重な特徴である。
任意のデータセットでモチーフ集合を特定するという高い計算複雑性は、多くの実世界のデータセットでの使用を制限している。
データセットの統計特性を自動で活用することで、機械学習のアプローチは複雑さのあるいくつかのタスクにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2022-06-02T12:15:05Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。