論文の概要: Grid Jigsaw Representation with CLIP: A New Perspective on Image
Clustering
- arxiv url: http://arxiv.org/abs/2310.17869v1
- Date: Fri, 27 Oct 2023 03:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:56:32.149774
- Title: Grid Jigsaw Representation with CLIP: A New Perspective on Image
Clustering
- Title(参考訳): CLIPによるGrid Jigsaw表現 - イメージクラスタリングの新しい視点
- Authors: Zijie Song, Zhenzhen Hu and Richang Hong
- Abstract要約: GJR(Grid Jigsaw Representation)と呼ばれる、画像クラスタリングのためのJigsawベースの戦略手法。
GJRモジュールは、さまざまな深層畳み込みネットワークに付加され、幅広いベンチマークデータセットで大幅に改善された。
実験の結果,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性が示された。
- 参考スコア(独自算出の注目度): 37.15595383168132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised representation learning for image clustering is essential in
computer vision. Although the advancement of visual models has improved image
clustering with efficient visual representations, challenges still remain.
Firstly, these features often lack the ability to represent the internal
structure of images, hindering the accurate clustering of visually similar
images. Secondly, the existing features tend to lack finer-grained semantic
labels, limiting the ability to capture nuanced differences and similarities
between images.
In this paper, we first introduce Jigsaw based strategy method for image
clustering called Grid Jigsaw Representation (GJR) with systematic exposition
from pixel to feature in discrepancy against human and computer. We emphasize
that this algorithm, which mimics human jigsaw puzzle, can effectively improve
the model to distinguish the spatial feature between different samples and
enhance the clustering ability. GJR modules are appended to a variety of deep
convolutional networks and tested with significant improvements on a wide range
of benchmark datasets including CIFAR-10, CIFAR-100/20, STL-10, ImageNet-10 and
ImageNetDog-15.
On the other hand, convergence efficiency is always an important challenge
for unsupervised image clustering. Recently, pretrained representation learning
has made great progress and released models can extract mature visual
representations. It is obvious that use the pretrained model as feature
extractor can speed up the convergence of clustering where our aim is to
provide new perspective in image clustering with reasonable resource
application and provide new baseline. Further, we innovate pretrain-based Grid
Jigsaw Representation (pGJR) with improvement by GJR. The experiment results
show the effectiveness on the clustering task with respect to the ACC, NMI and
ARI three metrics and super fast convergence speed.
- Abstract(参考訳): 画像クラスタリングのための教師なし表現学習はコンピュータビジョンにおいて不可欠である。
視覚モデルの進歩により、効率的な視覚表現による画像クラスタリングが改善されたが、依然として課題が残っている。
第一に、これらの特徴はしばしば画像の内部構造を表現する能力がなく、視覚的に類似した画像の正確なクラスタリングを妨げる。
第二に、既存の機能はよりきめ細かいセマンティックラベルを欠く傾向にあり、ニュアンスドの違いと画像間の類似性をキャプチャする能力を制限する。
本稿ではまず,gjr(grid jigsaw representation)と呼ばれる画像クラスタリングのためのjigsawベースの戦略手法について紹介する。
人間のジグソーパズルを模倣するこのアルゴリズムは、異なるサンプル間の空間的特徴を識別し、クラスタリング能力を高めるために、効果的にモデルを改善することができる。
GJRモジュールは様々な深層畳み込みネットワークに付加され、CIFAR-10、CIFAR-100/20、STL-10、ImageNet-10、ImageNetDog-15など幅広いベンチマークデータセットで大幅に改善された。
一方,教師なし画像クラスタリングでは,収束効率が常に重要な課題である。
近年,事前訓練された表現学習が大きな進歩を遂げ,成熟した視覚表現を抽出できるモデルがリリースされた。
事前学習したモデルを特徴抽出器として使用することで、画像クラスタリングにおける合理的なリソースアプリケーションによる新たな視点を提供し、新たなベースラインを提供するクラスタリングの収束を早めることは明らかです。
さらに,GJRの改良により,プレトレインベースグリッドJigsaw表現(pGJR)を革新する。
実験結果は,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性を示した。
関連論文リスト
- Dual Advancement of Representation Learning and Clustering for Sparse and Noisy Images [14.836487514037994]
SNI(Sparse and Noisy Image)は、効果的な表現学習とクラスタリングに重要な課題を提起する。
本稿では、マスク画像モデリングから得られた表現を強化するために、DARLC(Dual Advancement of Representation Learning and Clustering)を提案する。
我々のフレームワークは、局所的な認識性、特異性、関係意味論の理解を高めることによって、表現の学習を改善する包括的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-09-03T10:52:27Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Vision Transformer for Contrastive Clustering [48.476602271481674]
Vision Transformer(ViT)は、畳み込みニューラルネットワーク(CNN)に対してその優位性を示している。
本稿では、VTCC(Vision Transformer for Contrastive Clustering)と呼ばれるエンドツーエンドのディープ・クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-26T17:00:35Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - G-SimCLR : Self-Supervised Contrastive Learning with Guided Projection
via Pseudo Labelling [0.8164433158925593]
コンピュータビジョンにおいて、ディープニューラルネットワークは大量のラベル付きデータを持つ教師付き設定において、より良い性能を発揮することが明らかである。
本研究では, 温度スケールクロスエントロピー(NT-Xent)損失関数の正規化により, 同じカテゴリの画像が同じバッチにない方が有益であることを示す。
我々は、ラベルのないデータセットで訓練された復号化オートエンコーダの潜在空間表現を使用し、それらをk平均でクラスタリングして擬似ラベルを得る。
論文 参考訳(メタデータ) (2020-09-25T02:25:37Z) - Deep Transformation-Invariant Clustering [24.23117820167443]
抽象的な特徴に頼らず、画像変換の予測を学ぶアプローチを提案する。
この学習プロセスは、K平均とガウス混合モデルの勾配に基づく訓練に自然に適合する。
我々の新しいアプローチは、標準的な画像クラスタリングベンチマークにおいて、競争力があり、非常に有望な結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-06-19T13:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。