論文の概要: Deep Clustering with Features from Self-Supervised Pretraining
- arxiv url: http://arxiv.org/abs/2207.13364v1
- Date: Wed, 27 Jul 2022 08:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:03:50.921793
- Title: Deep Clustering with Features from Self-Supervised Pretraining
- Title(参考訳): 自己教師付き事前学習による深層クラスタリング
- Authors: Xingzhi Zhou, Nevin L. Zhang
- Abstract要約: ディープクラスタリングモデルは概念的には、データポイントを潜在空間にマッピングする特徴抽出器と、データポイントを潜在空間内のクラスタにグループ化するクラスタリングヘッドで構成される。
第1段階では、特徴抽出器は、データポイント間のクラスタ構造の保存を可能にする自己教師付き学習によって訓練される。
我々は,第1段階を,自己教師付き学習を通じて,より大規模なデータセット上で事前訓練された別のモデルに置き換えることを提案する。
- 参考スコア(独自算出の注目度): 16.023354174462774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A deep clustering model conceptually consists of a feature extractor that
maps data points to a latent space, and a clustering head that groups data
points into clusters in the latent space. Although the two components used to
be trained jointly in an end-to-end fashion, recent works have proved it
beneficial to train them separately in two stages. In the first stage, the
feature extractor is trained via self-supervised learning, which enables the
preservation of the cluster structures among the data points. To preserve the
cluster structures even better, we propose to replace the first stage with
another model that is pretrained on a much larger dataset via self-supervised
learning. The method is simple and might suffer from domain shift. Nonetheless,
we have empirically shown that it can achieve superior clustering performance.
When a vision transformer (ViT) architecture is used for feature extraction,
our method has achieved clustering accuracy 94.0%, 55.6% and 97.9% on CIFAR-10,
CIFAR-100 and STL-10 respectively. The corresponding previous state-of-the-art
results are 84.3%, 47.7% and 80.8%. Our code will be available online with the
publication of the paper.
- Abstract(参考訳): ディープクラスタリングモデルは概念的には、データポイントを潜在空間にマッピングする特徴抽出器と、データポイントを潜在空間内のクラスタにグループ化するクラスタリングヘッドで構成される。
2つのコンポーネントは、かつてはエンドツーエンドで共同でトレーニングされていたが、近年の研究では、2つの段階で個別にトレーニングすることが有益であることが証明されている。
最初の段階では、特徴抽出器は、データポイント間のクラスタ構造の保存を可能にする自己教師付き学習によって訓練される。
クラスタ構造をよりよく保存するために、自己教師付き学習を通じてより大規模なデータセットで事前訓練されたモデルに第1段階を置き換えることを提案する。
この方法は単純であり、ドメインシフトに苦しむ可能性がある。
それでも、優れたクラスタリング性能を達成できることを実証的に示しています。
視覚変換器(ViT)アーキテクチャを用いて特徴抽出を行う場合,CIFAR-10,CIFAR-100,STL-10において,クラスタリング精度94.0%,55.6%,97.9%を達成した。
前回の成果は84.3%、47.7%、80.8%だった。
私たちのコードは論文の公開とともにオンラインで利用できます。
関連論文リスト
- End-to-end Learnable Clustering for Intent Learning in Recommendation [54.157784572994316]
我々は、アンダーラインELCRecと呼ばれる新しい意図学習手法を提案する。
振る舞い表現学習をUnderlineEnd-to-end UnderlineLearnable UnderlineClusteringフレームワークに統合する。
1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし,有望な結果を得る。
論文 参考訳(メタデータ) (2024-01-11T15:22:55Z) - Deep Structure and Attention Aware Subspace Clustering [29.967881186297582]
本稿では,新しいサブスペースクラスタリング(DSASC)を提案する。
視覚変換器を用いて特徴を抽出し,抽出した特徴を2つの部分,構造特徴,内容特徴に分割する。
我々の手法は最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-25T01:19:47Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。
本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。
DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T08:00:36Z) - Learning Self-Expression Metrics for Scalable and Inductive Subspace
Clustering [5.587290026368626]
サブスペースクラスタリングは、高次元データをクラスタリングするための最先端のアプローチとして確立されている。
本研究では,シアムニューラルネットワークアーキテクチャを用いて,サブスペース親和性関数を学習するための新しい距離学習手法を提案する。
我々のモデルは、パラメータの一定数とメモリフットプリントの恩恵を受けており、かなり大きなデータセットにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-27T15:40:12Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z) - Improving k-Means Clustering Performance with Disentangled Internal
Representations [0.0]
本稿では,オートエンコーダの学習遅延符号表現の絡み合いを最適化する,シンプルなアプローチを提案する。
提案手法を用いて,MNISTデータセットでは96.2%,Fashion-MNISTデータセットでは85.6%,EMNIST Balancedデータセットでは79.2%,ベースラインモデルでは79.2%であった。
論文 参考訳(メタデータ) (2020-06-05T11:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。