論文の概要: Image Clustering via the Principle of Rate Reduction in the Age of
Pretrained Models
- arxiv url: http://arxiv.org/abs/2306.05272v3
- Date: Tue, 3 Oct 2023 07:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 08:03:58.638249
- Title: Image Clustering via the Principle of Rate Reduction in the Age of
Pretrained Models
- Title(参考訳): 事前学習モデルにおけるレート低減原理による画像クラスタリング
- Authors: Tianzhe Chu, Shengbang Tong, Tianjiao Ding, Xili Dai, Benjamin David
Haeffele, Ren\'e Vidal, Yi Ma
- Abstract要約: 本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
- 参考スコア(独自算出の注目度): 15.266356313275802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large pre-trained models has brought about a paradigm shift in
both visual representation learning and natural language processing. However,
clustering unlabeled images, as a fundamental and classic machine learning
problem, still lacks an effective solution, particularly for large-scale
datasets. In this paper, we propose a novel image clustering pipeline that
leverages the powerful feature representation of large pre-trained models such
as CLIP and cluster images effectively and efficiently at scale. We first
developed a novel algorithm to estimate the number of clusters in a given
dataset. We then show that the pre-trained features are significantly more
structured by further optimizing the rate reduction objective. The resulting
features may significantly improve the clustering accuracy, e.g., from 57\% to
66\% on ImageNet-1k. Furthermore, by leveraging CLIP's multimodality bridge
between image and text, we develop a simple yet effective self-labeling
algorithm that produces meaningful text labels for the clusters. Through
extensive experiments, we show that our pipeline works well on standard
datasets such as CIFAR-10, CIFAR-100, and ImageNet-1k. It also extends to
datasets without predefined labels, such as LAION-Aesthetics and WikiArts. We
released the code in https://github.com/LeslieTrue/CPP.
- Abstract(参考訳): 大規模な事前学習モデルの出現は、視覚表現学習と自然言語処理の両方にパラダイムシフトをもたらした。
しかしながら、ラベルのないイメージのクラスタリングは、基本で古典的な機械学習の問題として、特に大規模データセットでは、効果的なソリューションを欠いている。
本稿では,クリップ画像やクラスタ画像などの大規模事前学習モデルの強力な特徴表現を効果的かつ効率的に活用する,新しい画像クラスタリングパイプラインを提案する。
まず,与えられたデータセットのクラスタ数を推定する新しいアルゴリズムを開発した。
次に, 事前学習した特徴は, レート削減目標をさらに最適化することで, 著しく構造化されていることを示す。
その結果、ImageNet-1kでは57\%から66\%のクラスタリング精度が大幅に向上する可能性がある。
さらに,クリップのイメージとテキスト間のマルチモダリティブリッジを利用して,クラスタに対して有意義なテキストラベルを生成する,単純かつ効果的な自己ラベルアルゴリズムを開発した。
CIFAR-10, CIFAR-100, ImageNet-1kなどの標準データセットでパイプラインが動作することを示す。
また、LAION-AestheticsやWikiArtsなど、事前に定義されたラベルのないデータセットにも拡張されている。
コードをhttps://github.com/LeslieTrue/CPPでリリースしました。
関連論文リスト
- UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - Grid Jigsaw Representation with CLIP: A New Perspective on Image
Clustering [37.15595383168132]
GJR(Grid Jigsaw Representation)と呼ばれる、画像クラスタリングのためのJigsawベースの戦略手法。
GJRモジュールは、さまざまな深層畳み込みネットワークに付加され、幅広いベンチマークデータセットで大幅に改善された。
実験の結果,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性が示された。
論文 参考訳(メタデータ) (2023-10-27T03:07:05Z) - Exploring the Limits of Deep Image Clustering using Pretrained Models [1.1060425537315088]
本稿では,事前学習した特徴抽出器を利用してラベルなしで画像の分類を学習する手法を提案する。
本稿では,画像特徴間の関連性を学習する新たな目的について提案する。
論文 参考訳(メタデータ) (2023-03-31T08:56:29Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z) - GATCluster: Self-Supervised Gaussian-Attention Network for Image
Clustering [9.722607434532883]
画像クラスタリングのための自己教師型クラスタリングネットワーク(GATCluster)を提案する。
まず中間機能を抽出し、次に従来のクラスタリングを実行する代わりに、GATClusterセマンティッククラスタラベルを後処理なしで実行します。
大規模画像のクラスタリングにメモリ効率のよい2段階学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-02-27T00:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。