論文の概要: Vision Transformer for Contrastive Clustering
- arxiv url: http://arxiv.org/abs/2206.12925v1
- Date: Sun, 26 Jun 2022 17:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 06:07:27.870986
- Title: Vision Transformer for Contrastive Clustering
- Title(参考訳): コントラストクラスタリングのための視覚変換器
- Authors: Hua-Bao Ling, Bowen Zhu, Dong Huang, Ding-Hua Chen, Chang-Dong Wang,
Jian-Huang Lai
- Abstract要約: Vision Transformer(ViT)は、畳み込みニューラルネットワーク(CNN)に対してその優位性を示している。
本稿では、VTCC(Vision Transformer for Contrastive Clustering)と呼ばれるエンドツーエンドのディープ・クラスタリング手法を提案する。
- 参考スコア(独自算出の注目度): 48.476602271481674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) has shown its advantages over the convolutional
neural network (CNN) with its ability to capture global long-range dependencies
for visual representation learning. Besides ViT, contrastive learning is
another popular research topic recently. While previous contrastive learning
works are mostly based on CNNs, some latest studies have attempted to jointly
model the ViT and the contrastive learning for enhanced self-supervised
learning. Despite the considerable progress, these combinations of ViT and
contrastive learning mostly focus on the instance-level contrastiveness, which
often overlook the contrastiveness of the global clustering structures and also
lack the ability to directly learn the clustering result (e.g., for images). In
view of this, this paper presents an end-to-end deep image clustering approach
termed Vision Transformer for Contrastive Clustering (VTCC), which for the
first time, to the best of our knowledge, unifies the Transformer and the
contrastive learning for the image clustering task. Specifically, with two
random augmentations performed on each image in a mini-batch, we utilize a ViT
encoder with two weight-sharing views as the backbone to learn the
representations for the augmented samples. To remedy the potential instability
of the ViT, we incorporate a convolutional stem, which uses multiple stacked
small convolutions instead of a big convolution in the patch projection layer,
to split each augmented sample into a sequence of patches. With representations
learned via the backbone, an instance projector and a cluster projector are
further utilized for the instance-level contrastive learning and the global
clustering structure learning, respectively. Extensive experiments on eight
image datasets demonstrate the stability (during the training-from-scratch) and
the superiority (in clustering performance) of VTCC over the state-of-the-art.
- Abstract(参考訳): Vision Transformer(ViT)は、畳み込みニューラルネットワーク(CNN)に対して、視覚表現学習のためのグローバルな長距離依存関係をキャプチャする能力のメリットを示している。
ViT以外にも、コントラスト学習も最近人気がある。
従来のコントラスト学習は、主にCNNに基づいているが、最近の研究では、ViTとコントラスト学習を併用して、自己教師付き学習の強化を試みている。
かなりの進歩にもかかわらず、ViTとコントラスト学習の組み合わせは主にインスタンスレベルのコントラスト性に焦点を当てており、これは大域的なクラスタリング構造のコントラスト性を見落とし、クラスタリング結果を直接学習する能力(画像など)も欠如している。
そこで本稿では,本研究で初めて,画像クラスタリングタスクにおけるトランスフォーマーとコントラスト学習を統一したビジョントランスフォーマー(vision transformer for contrastive clustering, vtcc)を提案する。
具体的には、各画像に2つのランダムな拡張をミニバッチで行うことで、2つのウェイトシェアリングビューを持つViTエンコーダをバックボーンとして使用し、拡張サンプルの表現を学習する。
vitの潜在的な不安定性を改善するために、パッチ投影層の大きな畳み込みではなく、複数の積み重ねられた小さな畳み込みを使用する畳み込みstemを組み込んで、各拡張されたサンプルを一連のパッチに分割する。
バックボーンを通じて学習された表現により、インスタンスレベルのコントラスト学習とグローバルクラスタリング構造学習において、インスタンスプロジェクタとクラスタプロジェクタがさらに活用される。
8つの画像データセットに関する広範な実験は、最先端のvtccの安定性(スクラッチからのトレーニング)と優位性(クラスタリング性能)を示している。
関連論文リスト
- Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - Deep Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Contrastive Learning based Hybrid Networks for Long-Tailed Image
Classification [31.647639786095993]
画像表現の教師付きコントラスト損失と、分類器を学習するためのクロスエントロピー損失からなる新しいハイブリッドネットワーク構造を提案する。
3つの長尾分類データセットに関する実験は、長尾分類における比較学習に基づくハイブリッドネットワークの提案の利点を示している。
論文 参考訳(メタデータ) (2021-03-26T05:22:36Z) - Deep Transformation-Invariant Clustering [24.23117820167443]
抽象的な特徴に頼らず、画像変換の予測を学ぶアプローチを提案する。
この学習プロセスは、K平均とガウス混合モデルの勾配に基づく訓練に自然に適合する。
我々の新しいアプローチは、標準的な画像クラスタリングベンチマークにおいて、競争力があり、非常に有望な結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-06-19T13:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。