論文の概要: Grid Jigsaw Representation with CLIP: A New Perspective on Image
Clustering
- arxiv url: http://arxiv.org/abs/2310.17869v1
- Date: Fri, 27 Oct 2023 03:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:56:32.149774
- Title: Grid Jigsaw Representation with CLIP: A New Perspective on Image
Clustering
- Title(参考訳): CLIPによるGrid Jigsaw表現 - イメージクラスタリングの新しい視点
- Authors: Zijie Song, Zhenzhen Hu and Richang Hong
- Abstract要約: GJR(Grid Jigsaw Representation)と呼ばれる、画像クラスタリングのためのJigsawベースの戦略手法。
GJRモジュールは、さまざまな深層畳み込みネットワークに付加され、幅広いベンチマークデータセットで大幅に改善された。
実験の結果,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性が示された。
- 参考スコア(独自算出の注目度): 37.15595383168132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised representation learning for image clustering is essential in
computer vision. Although the advancement of visual models has improved image
clustering with efficient visual representations, challenges still remain.
Firstly, these features often lack the ability to represent the internal
structure of images, hindering the accurate clustering of visually similar
images. Secondly, the existing features tend to lack finer-grained semantic
labels, limiting the ability to capture nuanced differences and similarities
between images.
In this paper, we first introduce Jigsaw based strategy method for image
clustering called Grid Jigsaw Representation (GJR) with systematic exposition
from pixel to feature in discrepancy against human and computer. We emphasize
that this algorithm, which mimics human jigsaw puzzle, can effectively improve
the model to distinguish the spatial feature between different samples and
enhance the clustering ability. GJR modules are appended to a variety of deep
convolutional networks and tested with significant improvements on a wide range
of benchmark datasets including CIFAR-10, CIFAR-100/20, STL-10, ImageNet-10 and
ImageNetDog-15.
On the other hand, convergence efficiency is always an important challenge
for unsupervised image clustering. Recently, pretrained representation learning
has made great progress and released models can extract mature visual
representations. It is obvious that use the pretrained model as feature
extractor can speed up the convergence of clustering where our aim is to
provide new perspective in image clustering with reasonable resource
application and provide new baseline. Further, we innovate pretrain-based Grid
Jigsaw Representation (pGJR) with improvement by GJR. The experiment results
show the effectiveness on the clustering task with respect to the ACC, NMI and
ARI three metrics and super fast convergence speed.
- Abstract(参考訳): 画像クラスタリングのための教師なし表現学習はコンピュータビジョンにおいて不可欠である。
視覚モデルの進歩により、効率的な視覚表現による画像クラスタリングが改善されたが、依然として課題が残っている。
第一に、これらの特徴はしばしば画像の内部構造を表現する能力がなく、視覚的に類似した画像の正確なクラスタリングを妨げる。
第二に、既存の機能はよりきめ細かいセマンティックラベルを欠く傾向にあり、ニュアンスドの違いと画像間の類似性をキャプチャする能力を制限する。
本稿ではまず,gjr(grid jigsaw representation)と呼ばれる画像クラスタリングのためのjigsawベースの戦略手法について紹介する。
人間のジグソーパズルを模倣するこのアルゴリズムは、異なるサンプル間の空間的特徴を識別し、クラスタリング能力を高めるために、効果的にモデルを改善することができる。
GJRモジュールは様々な深層畳み込みネットワークに付加され、CIFAR-10、CIFAR-100/20、STL-10、ImageNet-10、ImageNetDog-15など幅広いベンチマークデータセットで大幅に改善された。
一方,教師なし画像クラスタリングでは,収束効率が常に重要な課題である。
近年,事前訓練された表現学習が大きな進歩を遂げ,成熟した視覚表現を抽出できるモデルがリリースされた。
事前学習したモデルを特徴抽出器として使用することで、画像クラスタリングにおける合理的なリソースアプリケーションによる新たな視点を提供し、新たなベースラインを提供するクラスタリングの収束を早めることは明らかです。
さらに,GJRの改良により,プレトレインベースグリッドJigsaw表現(pGJR)を革新する。
実験結果は,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性を示した。
関連論文リスト
- Dual Advancement of Representation Learning and Clustering for Sparse and Noisy Images [14.836487514037994]
SNI(Sparse and Noisy Image)は、効果的な表現学習とクラスタリングに重要な課題を提起する。
本稿では、マスク画像モデリングから得られた表現を強化するために、DARLC(Dual Advancement of Representation Learning and Clustering)を提案する。
我々のフレームワークは、局所的な認識性、特異性、関係意味論の理解を高めることによって、表現の学習を改善する包括的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-09-03T10:52:27Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Superpixel Graph Contrastive Clustering with Semantic-Invariant
Augmentations for Hyperspectral Images [64.72242126879503]
ハイパースペクトル画像(HSI)クラスタリングは重要な課題だが難しい課題である。
まず3次元と2次元のハイブリッド畳み込みニューラルネットワークを用いてHSIの高次空間およびスペクトルの特徴を抽出する。
次に,超画素グラフの対比クラスタリングモデルを設計し,識別的超画素表現を学習する。
論文 参考訳(メタデータ) (2024-03-04T07:40:55Z) - ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - Masked Contrastive Graph Representation Learning for Age Estimation [44.96502862249276]
本稿では,画像冗長性情報を扱う上で,グラフ表現学習の特性を利用する。
年齢推定のためのMasked Contrastive Graph Representation Learning (MCGRL)法を提案する。
実世界の顔画像データセットに対する実験結果から,提案手法が他の最先端の年齢推定手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-16T15:53:21Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - Semantic-Enhanced Image Clustering [6.218389227248297]
本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。
イメージを適切なセマンティック空間にマップする方法と、イメージとセマンティック空間の両方からイメージをクラスタリングする方法は、2つの重要な問題である。
本稿では,与えられた画像を適切な意味空間にマッピングする手法を提案し,画像と意味論の関係に応じて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2022-08-21T09:04:21Z) - Deep Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - Clustering by Maximizing Mutual Information Across Views [62.21716612888669]
本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。
提案手法は,様々な画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-24T15:36:49Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Deep Transformation-Invariant Clustering [24.23117820167443]
抽象的な特徴に頼らず、画像変換の予測を学ぶアプローチを提案する。
この学習プロセスは、K平均とガウス混合モデルの勾配に基づく訓練に自然に適合する。
我々の新しいアプローチは、標準的な画像クラスタリングベンチマークにおいて、競争力があり、非常に有望な結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-06-19T13:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。