論文の概要: D.MCA: Outlier Detection with Explicit Micro-Cluster Assignments
- arxiv url: http://arxiv.org/abs/2210.08212v1
- Date: Sat, 15 Oct 2022 06:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 16:37:22.433510
- Title: D.MCA: Outlier Detection with Explicit Micro-Cluster Assignments
- Title(参考訳): D.MCA: 明示的なマイクロクラスタ割り当てによる外部検出
- Authors: Shuli Jiang, Robson Leonardo Ferreira Cordeiro, Leman Akoglu
- Abstract要約: 我々はD.MCAを提案し、明示的に$underlineD$etectoutliersでoutliersを検出する。
メソッドは、検出と割り当てを反復的に、社内で実行します。
16の実世界のデータセットと合成データセットで実施された実験は、D.MCAが8つの最先端の競合より優れていることを示した。
- 参考スコア(独自算出の注目度): 17.564273966899137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: How can we detect outliers, both scattered and clustered, and also explicitly
assign them to respective micro-clusters, without knowing apriori how many
micro-clusters exist? How can we perform both tasks in-house, i.e., without any
post-hoc processing, so that both detection and assignment can benefit
simultaneously from each other? Presenting outliers in separate micro-clusters
is informative to analysts in many real-world applications. However, a na\"ive
solution based on post-hoc clustering of the outliers detected by any existing
method suffers from two main drawbacks: (a) appropriate hyperparameter values
are commonly unknown for clustering, and most algorithms struggle with clusters
of varying shapes and densities; (b) detection and assignment cannot benefit
from one another. In this paper, we propose D.MCA to $\underline{D}$etect
outliers with explicit $\underline{M}$icro-$\underline{C}$luster
$\underline{A}$ssignment. Our method performs both detection and assignment
iteratively, and in-house, by using a novel strategy that prunes entire
micro-clusters out of the training set to improve the performance of the
detection. It also benefits from a novel strategy that avoids clustered
outliers to mask each other, which is a well-known problem in the literature.
Also, D.MCA is designed to be robust to a critical hyperparameter by employing
a hyperensemble "warm up" phase. Experiments performed on 16 real-world and
synthetic datasets demonstrate that D.MCA outperforms 8 state-of-the-art
competitors, especially on the explicit outlier micro-cluster assignment task.
- Abstract(参考訳): aprioriがどれだけのマイクロクラスタが存在するか知らずに、分散とクラスタ化の両方の異常値を検出し、それらをそれぞれのマイクロクラスタに明示的に割り当てるにはどうすればよいのか?
検出と割り当ての両方が互いにメリットを享受できるように、どのようにして社内で、すなわちポストホックな処理をせずに、両方のタスクを実行できるのか?
別々のマイクロクラスタに異常値を示すことは、多くの実世界のアプリケーションにおけるアナリストにとって有益である。
しかし、既存の方法によって検出された外れ値のポストホッククラスタリングに基づく na\ な解は、2つの主な欠点に悩まされる。
(a) クラスタリングには適度なハイパーパラメータ値がよく知られておらず、ほとんどのアルゴリズムは様々な形状や密度のクラスタと競合する。
b) 検出及び割り当ては相互に恩恵を受けない。
本稿では、明示的な$\underline{m}$icro-$\underline{c}$luster $\underline{a}$ssignmentを持つd.mca to $\underline{d}$etect outliersを提案する。
本手法は, 学習セットからマイクロクラスタ全体を分離し, 検出性能を向上させる新しい戦略を用いて, 反復的かつ内部的に検出と割り当ての両方を行う。
これはまた、互いにマスキングするためにクラスタ化された異常値を避ける新しい戦略の恩恵を受ける。
また、D.MCAはハイパーアンサンブルの「ウォームアップ」フェーズを用いることで、臨界ハイパーパラメータに対して堅牢であるように設計されている。
16の実世界のデータセットと合成データセットで実施された実験では、D.MCAは8つの最先端の競合、特に明示的なアウトリー・マイクロクラスタ割り当てタスクより優れていた。
関連論文リスト
- Stable Cluster Discrimination for Deep Clustering [7.175082696240088]
ディープクラスタリングは、インスタンスの表現(つまり、表現学習)を最適化し、固有のデータ分散を探索することができる。
結合された目的は、すべてのインスタンスが一様機能に崩壊する、自明な解決策を意味する。
本研究では,1段階クラスタリングにおいて,教師あり学習における一般的な識別タスクが不安定であることを示す。
新規な安定クラスタ識別(SeCu)タスクを提案し、それに応じて新しいハードネス対応クラスタリング基準を得ることができる。
論文 参考訳(メタデータ) (2023-11-24T06:43:26Z) - Are Easy Data Easy (for K-Means) [0.0]
本稿では、$k$-meansアルゴリズムの様々なブランドによって、適切に分離されたクラスタを復元する能力について検討する。
シード選択時に繰り返しサブサンプリングによって$k$-means++のバリエーションが提案される。
論文 参考訳(メタデータ) (2023-08-02T09:40:19Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Clustering-Induced Generative Incomplete Image-Text Clustering (CIGIT-C) [3.2062075983668343]
本稿では,クラスタリングによる生成不完全画像テキストクラスタリング(CIGIT-C)ネットワークを提案する。
まず、モダリティ固有のエンコーダを用いて、元の特徴をより特異な部分空間にマッピングする。
イントラモダリティとインターモダリティ間の潜伏接続は、徹底的に調査されている。
論文 参考訳(メタデータ) (2022-09-28T01:19:52Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Implicit Sample Extension for Unsupervised Person Re-Identification [97.46045935897608]
クラスタリングは、時に異なる真のアイデンティティを混ぜ合わせたり、同じアイデンティティを2つ以上のサブクラスタに分割する。
本稿では,クラスタ境界周辺のサポートサンプルを生成するために,Implicit Sample Extension (OurWholeMethod)法を提案する。
提案手法の有効性を実証し,教師なしのRe-IDに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-14T11:41:48Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。