論文の概要: An Empirical Study into Clustering of Unseen Datasets with Self-Supervised Encoders
- arxiv url: http://arxiv.org/abs/2406.02465v1
- Date: Tue, 4 Jun 2024 16:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:20:58.474686
- Title: An Empirical Study into Clustering of Unseen Datasets with Self-Supervised Encoders
- Title(参考訳): 自己監督型エンコーダを用いた未知データセットのクラスタリングに関する実証的研究
- Authors: Scott C. Lowe, Joakim Bruslund Haurum, Sageev Oore, Thomas B. Moeslund, Graham W. Taylor,
- Abstract要約: トレーニングされていないデータセットに事前トレーニングされたイメージモデルをデプロイし、それらの埋め込みが意味のあるクラスタを形成するかどうかを調査します。
この評価は、教師付きモデルに異なる特徴を優先する自己教師付きモデルの埋め込みに関する新たな洞察を提供する。
- 参考スコア(独自算出の注目度): 34.000135361782206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can pretrained models generalize to new datasets without any retraining? We deploy pretrained image models on datasets they were not trained for, and investigate whether their embeddings form meaningful clusters. Our suite of benchmarking experiments use encoders pretrained solely on ImageNet-1k with either supervised or self-supervised training techniques, deployed on image datasets that were not seen during training, and clustered with conventional clustering algorithms. This evaluation provides new insights into the embeddings of self-supervised models, which prioritize different features to supervised models. Supervised encoders typically offer more utility than SSL encoders within the training domain, and vice-versa far outside of it, however, fine-tuned encoders demonstrate the opposite trend. Clustering provides a way to evaluate the utility of self-supervised learned representations orthogonal to existing methods such as kNN. Additionally, we find the silhouette score when measured in a UMAP-reduced space is highly correlated with clustering performance, and can therefore be used as a proxy for clustering performance on data with no ground truth labels. Our code implementation is available at \url{https://github.com/scottclowe/zs-ssl-clustering/}.
- Abstract(参考訳): 事前トレーニングされたモデルは、再トレーニングなしに新しいデータセットに一般化できるか?
トレーニングされていないデータセットに事前トレーニングされたイメージモデルをデプロイし、それらの埋め込みが意味のあるクラスタを形成するかどうかを調査します。
ベンチマーク実験のスイートでは、ImageNet-1kで事前トレーニングされたエンコーダと、教師付きまたは自己教師型トレーニング技術、トレーニング中に見られなかったイメージデータセットにデプロイされ、従来のクラスタリングアルゴリズムでクラスタリングされる。
この評価は、教師付きモデルに異なる特徴を優先する自己教師付きモデルの埋め込みに関する新たな洞察を提供する。
スーパービジョンエンコーダは通常、トレーニングドメイン内のSSLエンコーダよりも実用性が高く、その外では逆向きであるが、微調整エンコーダは逆の傾向を示している。
クラスタリングは、kNNのような既存のメソッドと直交する自己教師付き学習表現の有用性を評価する方法を提供する。
さらに, 実測空間におけるシルエットスコアは, クラスタリング性能と高い相関関係があり, 基底真理ラベルのないデータ上でのクラスタリング性能のプロキシとして利用することができる。
コード実装は \url{https://github.com/scottclowe/zs-ssl-clustering/} で利用可能です。
関連論文リスト
- A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Lightweight Unsupervised Federated Learning with Pretrained Vision Language Model [32.094290282897894]
フェデレートラーニングは、物理的に孤立したクライアントから、ユーザのデータのプライバシを保護しながら、集合モデルをトレーニングすることを目的としている。
本稿では,各クライアントのラベルのないデータを活用して,軽量なモデルトレーニングとコミュニケーションを行う,軽量な非教師付きフェデレーション学習手法を提案する。
提案手法は,CLIPのゼロショット予測と比較してモデル性能を大幅に向上させるとともに,教師付きフェデレーション学習ベンチマーク手法よりも優れる。
論文 参考訳(メタデータ) (2024-04-17T03:42:48Z) - Deep Contrastive Graph Learning with Clustering-Oriented Guidance [61.103996105756394]
グラフ畳み込みネットワーク(GCN)は、グラフベースのクラスタリングを改善する上で大きな可能性を秘めている。
モデルはGCNを適用するために初期グラフを事前に推定する。
一般的なデータクラスタリングには,Deep Contrastive Graph Learning (DCGL)モデルが提案されている。
論文 参考訳(メタデータ) (2024-02-25T07:03:37Z) - Probing clustering in neural network representations [30.640266399583613]
ニューラルネットワークトレーニングにおける多くの設計選択が、隠れた表現で形成されたクラスタにどのように影響するかを検討する。
トレーニングデータセットとアーキテクチャを、クラスタビリティに影響を及ぼす重要な要因として分離します。
正規化戦略はどの層が最高のクラスタリング性能をもたらすかに影響します。
論文 参考訳(メタデータ) (2023-11-14T02:33:54Z) - ClusterNet: A Perception-Based Clustering Model for Scattered Data [16.326062082938215]
クラスタ分離は、一般的に広く使用されているクラスタリング技術によって取り組まれるタスクである。
本稿では,分散データを直接操作する学習戦略を提案する。
私たちは、ポイントベースのディープラーニングモデルであるClusterNetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練します。
論文 参考訳(メタデータ) (2023-04-27T13:41:12Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - A Deep Dive into Deep Cluster [0.2578242050187029]
DeepClusterは、ビジュアル表現のシンプルでスケーラブルな教師なし事前トレーニングである。
本稿では,DeepClusterの収束と性能が,畳み込み層のランダムフィルタの品質と選択されたクラスタ数の相互作用に依存することを示す。
論文 参考訳(メタデータ) (2022-07-24T22:55:09Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Consensus Clustering With Unsupervised Representation Learning [4.164845768197489]
我々はBootstrap Your Own Latent(BYOL)のクラスタリング能力について検討し、BYOLを使って学習した機能がクラスタリングに最適でないことを観察する。
本稿では,新たなコンセンサスクラスタリングに基づく損失関数を提案するとともに,クラスタリング能力を改善し,類似のクラスタリングに基づく手法より優れたBYOLをエンド・ツー・エンドで学習する。
論文 参考訳(メタデータ) (2020-10-03T01:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。