論文の概要: Common Failure Modes of Subcluster-based Sampling in Dirichlet Process
Gaussian Mixture Models -- and a Deep-learning Solution
- arxiv url: http://arxiv.org/abs/2203.13661v1
- Date: Fri, 25 Mar 2022 14:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 17:05:51.186441
- Title: Common Failure Modes of Subcluster-based Sampling in Dirichlet Process
Gaussian Mixture Models -- and a Deep-learning Solution
- Title(参考訳): ディリクレ過程ガウス混合モデルにおけるサブクラスタサンプリングの共通障害モードとディープラーニングソリューション
- Authors: Vlad Winter, Or Dinari, Oren Freifeld
- Abstract要約: Dirichlet Process Gaussian Mixture Model (DPGMM) は、クラスタの数が不明な場合にデータをクラスタリングするのによく用いられる。
1つの主要な DPGMM 推論パラダイムはサンプリングに依存している。
ここでは、既知の最先端のサンプルを考察し、その障害モードを分析し、改善方法を示す。
- 参考スコア(独自算出の注目度): 5.822529963339041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Dirichlet Process Gaussian Mixture Model (DPGMM) is often used to cluster
data when the number of clusters is unknown. One main DPGMM inference paradigm
relies on sampling. Here we consider a known state-of-art sampler (proposed by
Chang and Fisher III (2013) and improved by Dinari et al. (2019)), analyze its
failure modes, and show how to improve it, often drastically. Concretely, in
that sampler, whenever a new cluster is formed it is augmented with two
subclusters whose labels are initialized at random. Upon their evolution, the
subclusters serve to propose a split of the parent cluster. We show that the
random initialization is often problematic and hurts the otherwise-effective
sampler. Specifically, we demonstrate that this initialization tends to lead to
poor split proposals and/or too many iterations before a desired split is
accepted. This slows convergence and can damage the clustering. As a remedy, we
propose two drop-in-replacement options for the subcluster-initialization
subroutine. The first is an intuitive heuristic while the second is based on
deep learning. We show that the proposed approach yields better splits, which
in turn translate to substantial improvements in performance, results, and
stability.
- Abstract(参考訳): Dirichlet Process Gaussian Mixture Model (DPGMM) は、クラスタ数が不明なときにデータをクラスタリングするためによく用いられる。
1つの主要なDPGMM推論パラダイムはサンプリングに依存する。
ここでは,Chang and Fisher III (2013) が提案し,Dinari et al. (2019) が改良した既知の最先端のサンプルを考察し,その故障モードを分析し,その改善方法を示す。
具体的には、新しいクラスタが生成されるたびに、ラベルがランダムに初期化される2つのサブクラスタで拡張される。
進化すると、サブクラスタは親クラスタの分割を提案するのに役立つ。
ランダムな初期化は多くの場合問題であり、非効率なサンプリング装置を損なう。
具体的には、この初期化が望ましい分割が受け入れられる前に、不適切な分割提案や、あるいは過剰なイテレーションにつながる傾向があることを実証する。
これにより収束が遅くなり、クラスタリングを損なう可能性がある。
本稿では,サブクラスタ初期化サブルーチンに対する2つの代替オプションを提案する。
1つは直感的なヒューリスティック、もう1つはディープラーニングに基づく。
提案手法がより良い分割をもたらし、結果として性能、結果、安定性が大幅に向上することを示す。
関連論文リスト
- Fast Semi-supervised Unmixing using Non-convex Optimization [85.95119207126292]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - A general theory for robust clustering via trimmed mean [7.650319416775203]
提案手法は,新しいトリミング平均型セントロイド推定器を用いたハイブリッドクラスタリング手法を導入し,誤ラベル保証を実現する。
その結果, 誤差がガウス以下の分布に従えば, ガウス以下のケースに還元されることがわかった。
これらの初期セントロイド推定値は,その後のクラスタリングアルゴリズムにおいて,最適な誤ラベル率を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Implicit Sample Extension for Unsupervised Person Re-Identification [97.46045935897608]
クラスタリングは、時に異なる真のアイデンティティを混ぜ合わせたり、同じアイデンティティを2つ以上のサブクラスタに分割する。
本稿では,クラスタ境界周辺のサポートサンプルを生成するために,Implicit Sample Extension (OurWholeMethod)法を提案する。
提案手法の有効性を実証し,教師なしのRe-IDに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-14T11:41:48Z) - Personalized Federated Learning via Convex Clustering [72.15857783681658]
本稿では,局所凸型ユーザコストを用いた個人化フェデレーション学習のためのアルゴリズム群を提案する。
提案するフレームワークは,異なるユーザのモデルの違いをペナル化する凸クラスタリングの一般化に基づいている。
論文 参考訳(メタデータ) (2022-02-01T19:25:31Z) - Correlation Clustering Reconstruction in Semi-Adversarial Models [70.11015369368272]
相関クラスタリングは多くのアプリケーションにおいて重要なクラスタリング問題である。
本研究では,ランダムノイズや対向的な修正によって崩壊した潜伏クラスタリングを再構築しようとする,この問題の再構築版について検討する。
論文 参考訳(メタデータ) (2021-08-10T14:46:17Z) - Progressive Cluster Purification for Unsupervised Feature Learning [48.87365358296371]
教師なしの特徴学習では、サンプル特異性に基づく手法はクラス間の情報を無視する。
本稿では,プログレッシブクラスタ形成時にクラス不整合サンプルを除外するクラスタリングに基づく新しい手法を提案する。
我々の手法は、プログレッシブ・クラスタ・パーフィケーション(PCP)と呼ばれ、訓練中に徐々にクラスタ数を減らし、プログレッシブ・クラスタリングを実装している。
論文 参考訳(メタデータ) (2020-07-06T08:11:03Z) - An Efficient Framework for Clustered Federated Learning [26.24231986590374]
本稿では,ユーザがクラスタに分散するフェデレーション学習(FL)の問題に対処する。
反復フェデレーションクラスタリングアルゴリズム(IFCA)を提案する。
ニューラルネットワークのような非分割問題では,アルゴリズムが効率的であることを示す。
論文 参考訳(メタデータ) (2020-06-07T08:48:59Z) - Handling missing data in model-based clustering [0.0]
欠損データの存在下でガウス混合体を適合させる2つの方法を提案する。
どちらの手法もデータ拡張のためにモンテカルロ予測最大化アルゴリズムの変種を用いる。
提案手法はクラスタ同定と密度推定の両面で多重計算手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。