Fugu-MT 論文翻訳(概要): Grid Jigsaw Representation with CLIP: A New Perspective on Image Clustering

論文の概要: Grid Jigsaw Representation with CLIP: A New Perspective on Image Clustering

arxiv url: http://arxiv.org/abs/2310.17869v1
Date: Fri, 27 Oct 2023 03:07:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 14:56:32.149774
Title: Grid Jigsaw Representation with CLIP: A New Perspective on Image Clustering
Title（参考訳）: CLIPによるGrid Jigsaw表現 - イメージクラスタリングの新しい視点
Authors: Zijie Song, Zhenzhen Hu and Richang Hong
Abstract要約: GJR(Grid Jigsaw Representation)と呼ばれる、画像クラスタリングのためのJigsawベースの戦略手法。 GJRモジュールは、さまざまな深層畳み込みネットワークに付加され、幅広いベンチマークデータセットで大幅に改善された。実験の結果,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性が示された。
参考スコア（独自算出の注目度）: 37.15595383168132
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised representation learning for image clustering is essential in computer vision. Although the advancement of visual models has improved image clustering with efficient visual representations, challenges still remain. Firstly, these features often lack the ability to represent the internal structure of images, hindering the accurate clustering of visually similar images. Secondly, the existing features tend to lack finer-grained semantic labels, limiting the ability to capture nuanced differences and similarities between images. In this paper, we first introduce Jigsaw based strategy method for image clustering called Grid Jigsaw Representation (GJR) with systematic exposition from pixel to feature in discrepancy against human and computer. We emphasize that this algorithm, which mimics human jigsaw puzzle, can effectively improve the model to distinguish the spatial feature between different samples and enhance the clustering ability. GJR modules are appended to a variety of deep convolutional networks and tested with significant improvements on a wide range of benchmark datasets including CIFAR-10, CIFAR-100/20, STL-10, ImageNet-10 and ImageNetDog-15. On the other hand, convergence efficiency is always an important challenge for unsupervised image clustering. Recently, pretrained representation learning has made great progress and released models can extract mature visual representations. It is obvious that use the pretrained model as feature extractor can speed up the convergence of clustering where our aim is to provide new perspective in image clustering with reasonable resource application and provide new baseline. Further, we innovate pretrain-based Grid Jigsaw Representation (pGJR) with improvement by GJR. The experiment results show the effectiveness on the clustering task with respect to the ACC, NMI and ARI three metrics and super fast convergence speed.
Abstract（参考訳）: 画像クラスタリングのための教師なし表現学習はコンピュータビジョンにおいて不可欠である。視覚モデルの進歩により、効率的な視覚表現による画像クラスタリングが改善されたが、依然として課題が残っている。第一に、これらの特徴はしばしば画像の内部構造を表現する能力がなく、視覚的に類似した画像の正確なクラスタリングを妨げる。第二に、既存の機能はよりきめ細かいセマンティックラベルを欠く傾向にあり、ニュアンスドの違いと画像間の類似性をキャプチャする能力を制限する。本稿ではまず,gjr(grid jigsaw representation)と呼ばれる画像クラスタリングのためのjigsawベースの戦略手法について紹介する。人間のジグソーパズルを模倣するこのアルゴリズムは、異なるサンプル間の空間的特徴を識別し、クラスタリング能力を高めるために、効果的にモデルを改善することができる。 GJRモジュールは様々な深層畳み込みネットワークに付加され、CIFAR-10、CIFAR-100/20、STL-10、ImageNet-10、ImageNetDog-15など幅広いベンチマークデータセットで大幅に改善された。一方,教師なし画像クラスタリングでは,収束効率が常に重要な課題である。近年,事前訓練された表現学習が大きな進歩を遂げ,成熟した視覚表現を抽出できるモデルがリリースされた。事前学習したモデルを特徴抽出器として使用することで、画像クラスタリングにおける合理的なリソースアプリケーションによる新たな視点を提供し、新たなベースラインを提供するクラスタリングの収束を早めることは明らかです。さらに,GJRの改良により,プレトレインベースグリッドJigsaw表現(pGJR)を革新する。実験結果は,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性を示した。

関連論文リスト

Dual Advancement of Representation Learning and Clustering for Sparse and Noisy Images [14.836487514037994]
SNI(Sparse and Noisy Image)は、効果的な表現学習とクラスタリングに重要な課題を提起する。本稿では、マスク画像モデリングから得られた表現を強化するために、DARLC(Dual Advancement of Representation Learning and Clustering)を提案する。我々のフレームワークは、局所的な認識性、特異性、関係意味論の理解を高めることによって、表現の学習を改善する包括的なアプローチを提供する。
論文参考訳（メタデータ） (2024-09-03T10:52:27Z)
Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。 FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文参考訳（メタデータ） (2024-03-26T06:04:50Z)
Superpixel Graph Contrastive Clustering with Semantic-Invariant Augmentations for Hyperspectral Images [64.72242126879503]
ハイパースペクトル画像(HSI)クラスタリングは重要な課題だが難しい課題である。まず3次元と2次元のハイブリッド畳み込みニューラルネットワークを用いてHSIの高次空間およびスペクトルの特徴を抽出する。次に,超画素グラフの対比クラスタリングモデルを設計し,識別的超画素表現を学習する。
論文参考訳（メタデータ） (2024-03-04T07:40:55Z)
ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文参考訳（メタデータ） (2023-09-22T22:12:30Z)
Masked Contrastive Graph Representation Learning for Age Estimation [44.96502862249276]
本稿では,画像冗長性情報を扱う上で,グラフ表現学習の特性を利用する。年齢推定のためのMasked Contrastive Graph Representation Learning (MCGRL)法を提案する。実世界の顔画像データセットに対する実験結果から,提案手法が他の最先端の年齢推定手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-16T15:53:21Z)
Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文参考訳（メタデータ） (2023-06-08T15:20:27Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Semantic-Enhanced Image Clustering [6.218389227248297]
本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。イメージを適切なセマンティック空間にマップする方法と、イメージとセマンティック空間の両方からイメージをクラスタリングする方法は、2つの重要な問題である。本稿では,与えられた画像を適切な意味空間にマッピングする手法を提案し,画像と意味論の関係に応じて擬似ラベルを生成する。
論文参考訳（メタデータ） (2022-08-21T09:04:21Z)
Deep Image Clustering with Contrastive Learning and Multi-scale Graph Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文参考訳（メタデータ） (2022-07-14T19:16:56Z)
Vision Transformer for Contrastive Clustering [48.476602271481674]
Vision Transformer(ViT)は、畳み込みニューラルネットワーク(CNN)に対してその優位性を示している。本稿では、VTCC(Vision Transformer for Contrastive Clustering)と呼ばれるエンドツーエンドのディープ・クラスタリング手法を提案する。
論文参考訳（メタデータ） (2022-06-26T17:00:35Z)
Clustering by Maximizing Mutual Information Across Views [62.21716612888669]
本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。提案手法は,様々な画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れていた。
論文参考訳（メタデータ） (2021-07-24T15:36:49Z)
Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文参考訳（メタデータ） (2021-03-19T03:55:58Z)
Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文参考訳（メタデータ） (2020-12-09T12:40:13Z)
G-SimCLR : Self-Supervised Contrastive Learning with Guided Projection via Pseudo Labelling [0.8164433158925593]
コンピュータビジョンにおいて、ディープニューラルネットワークは大量のラベル付きデータを持つ教師付き設定において、より良い性能を発揮することが明らかである。本研究では, 温度スケールクロスエントロピー(NT-Xent)損失関数の正規化により, 同じカテゴリの画像が同じバッチにない方が有益であることを示す。我々は、ラベルのないデータセットで訓練された復号化オートエンコーダの潜在空間表現を使用し、それらをk平均でクラスタリングして擬似ラベルを得る。
論文参考訳（メタデータ） (2020-09-25T02:25:37Z)
Deep Transformation-Invariant Clustering [24.23117820167443]
抽象的な特徴に頼らず、画像変換の予測を学ぶアプローチを提案する。この学習プロセスは、K平均とガウス混合モデルの勾配に基づく訓練に自然に適合する。我々の新しいアプローチは、標準的な画像クラスタリングベンチマークにおいて、競争力があり、非常に有望な結果をもたらすことを実証する。
論文参考訳（メタデータ） (2020-06-19T13:43:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。