論文の概要: Simple, Scalable, and Stable Variational Deep Clustering
- arxiv url: http://arxiv.org/abs/2005.08047v2
- Date: Thu, 21 May 2020 10:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 12:58:44.878360
- Title: Simple, Scalable, and Stable Variational Deep Clustering
- Title(参考訳): 単純でスケーラブルで安定した変分深いクラスタリング
- Authors: Lele Cao, Sahar Asadi, Wenfei Zhu, Christian Schmidli, Michael
Sj\"oberg
- Abstract要約: ディープクラスタリング(DC)は、教師なしクラスタリングの最先端技術となっている。
DC法は一般に、高い運用コスト、低いスケーラビリティ、不安定な結果のために、適用が不十分である。
本稿では, 産業応用の文脈において, 8つの経験的基準を用いて, 一般的なDC変種を最初に評価する。
次に、単純さ、スケーラビリティ、安定性を除いて、これらの基準をほぼ満たしているため、変分深層クラスタリング(VDC)手法に焦点を合わせることにしました。
Initial $gamma$-training, periodic $beta$-annealing, mini-batch GMM (G) の4つの汎用アルゴリズムの改善を導入する。
- 参考スコア(独自算出の注目度): 0.0874967598360817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep clustering (DC) has become the state-of-the-art for unsupervised
clustering. In principle, DC represents a variety of unsupervised methods that
jointly learn the underlying clusters and the latent representation directly
from unstructured datasets. However, DC methods are generally poorly applied
due to high operational costs, low scalability, and unstable results. In this
paper, we first evaluate several popular DC variants in the context of
industrial applicability using eight empirical criteria. We then choose to
focus on variational deep clustering (VDC) methods, since they mostly meet
those criteria except for simplicity, scalability, and stability. To address
these three unmet criteria, we introduce four generic algorithmic improvements:
initial $\gamma$-training, periodic $\beta$-annealing, mini-batch GMM (Gaussian
mixture model) initialization, and inverse min-max transform. We also propose a
novel clustering algorithm S3VDC (simple, scalable, and stable VDC) that
incorporates all those improvements. Our experiments show that S3VDC
outperforms the state-of-the-art on both benchmark tasks and a large
unstructured industrial dataset without any ground truth label. In addition, we
analytically evaluate the usability and interpretability of S3VDC.
- Abstract(参考訳): ディープクラスタリング(dc)は、教師なしクラスタリングの最先端技術となっている。
原則としてDCは、基盤となるクラスタと非構造化データセットから直接潜在表現を共同で学習する、教師なしのさまざまなメソッドを表現している。
しかし、dc方式は運用コストが高く、スケーラビリティが低く、不安定な結果をもたらすため、一般的にはあまり適用されない。
本稿では, 産業応用の文脈において, 8つの経験的基準を用いていくつかのDC変種を評価した。
次に、単純さ、スケーラビリティ、安定性を除いて、これらの基準をほぼ満たしているため、変分深層クラスタリング(VDC)手法に焦点を合わせることにしました。
初期$\gamma$-training, periodic $\beta$-annealing, mini-batch GMM (Gaussian Mixed Model) 初期化, inverse min-max transform の4つのアルゴリズム改良を提案する。
また,これらの改良を取り入れたクラスタリングアルゴリズムS3VDC(単純,スケーラブル,安定なVDC)を提案する。
実験の結果,S3VDCは,基礎的真理ラベルのない大規模産業データセットとベンチマークタスクの両面において,最先端の処理性能を上回っていることがわかった。
また,S3VDCのユーザビリティと解釈性についても分析を行った。
関連論文リスト
- Standardizing Structural Causal Models [80.21199731817698]
ベンチマークアルゴリズムのための内部標準構造因果モデル(iSCM)を提案する。
構成上、iSCMは$operatornameVar$-sortableではなく、実験的に示すように、$operatornameR2$-sortableではない。
論文 参考訳(メタデータ) (2024-06-17T14:52:21Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain Generalization [24.413415998529754]
本稿では,Hybrid Domain Generalization (HDG) と,アルゴリズムのロバスト性を評価するために,様々な分割を構成する新しい指標である$H2$-CVを提案する。
提案手法は,複数のデータセット上での最先端アルゴリズムよりも優れており,特にデータ不足に直面する場合のロバスト性の向上に寄与する。
論文 参考訳(メタデータ) (2024-04-13T13:41:13Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Coping with Change: Learning Invariant and Minimum Sufficient
Representations for Fine-Grained Visual Categorization [26.254072665916155]
細粒度視覚分類(FGVC)は、様々な種間の類似した視覚的外観のために難しい課題である。
以前の研究では、トレーニングデータとテストデータは、同じ基礎的な分布を持ち、現代のバックボーンアーキテクチャによって抽出された特徴は差別的であり、見つからないテストデータによく当てはまると仮定されている。
我々は、FGVCにおける不変リスク最小化(IRM)と情報ボトルネック(IB)の原則を組み合わせて、不変性と最小限のIMS表現を学習する。
論文 参考訳(メタデータ) (2023-06-08T02:45:15Z) - Upcycling Models under Domain and Category Shift [95.22147885947732]
グローバルかつ局所的なクラスタリング学習技術(GLC)を導入する。
我々は、異なる対象クラス間での区別を実現するために、新しい1-vs-allグローバルクラスタリングアルゴリズムを設計する。
注目すべきは、最も困難なオープンパーティルセットDAシナリオにおいて、GLCは、VisDAベンチマークでUMADを14.8%上回っていることである。
論文 参考訳(メタデータ) (2023-03-13T13:44:04Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Manifold-Aware Deep Clustering: Maximizing Angles between Embedding
Vectors Based on Regular Simplex [11.45476110868809]
多様体対応直流 (M-DC) は, もともとの直流よりも効率よく超空間利用を向上させることができる。
本手法は,正規表現の性質に基づいて,超空間の目標角度を最大化することを目的とした一意な損失関数を導出する。
論文 参考訳(メタデータ) (2021-06-04T08:27:01Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。