論文の概要: Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments
- arxiv url: http://arxiv.org/abs/2006.09882v5
- Date: Fri, 8 Jan 2021 17:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 21:13:32.735680
- Title: Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments
- Title(参考訳): クラスタ割り当てによる視覚特徴の教師なし学習
- Authors: Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr
Bojanowski, Armand Joulin
- Abstract要約: ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
- 参考スコア(独自算出の注目度): 57.33699905852397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised image representations have significantly reduced the gap with
supervised pretraining, notably with the recent achievements of contrastive
learning methods. These contrastive methods typically work online and rely on a
large number of explicit pairwise feature comparisons, which is computationally
challenging. In this paper, we propose an online algorithm, SwAV, that takes
advantage of contrastive methods without requiring to compute pairwise
comparisons. Specifically, our method simultaneously clusters the data while
enforcing consistency between cluster assignments produced for different
augmentations (or views) of the same image, instead of comparing features
directly as in contrastive learning. Simply put, we use a swapped prediction
mechanism where we predict the cluster assignment of a view from the
representation of another view. Our method can be trained with large and small
batches and can scale to unlimited amounts of data. Compared to previous
contrastive methods, our method is more memory efficient since it does not
require a large memory bank or a special momentum network. In addition, we also
propose a new data augmentation strategy, multi-crop, that uses a mix of views
with different resolutions in place of two full-resolution views, without
increasing the memory or compute requirements much. We validate our findings by
achieving 75.3% top-1 accuracy on ImageNet with ResNet-50, as well as
surpassing supervised pretraining on all the considered transfer tasks.
- Abstract(参考訳): 教師なし画像表現は教師なし事前学習のギャップを著しく減少させており、特に近年のコントラスト学習の成果は顕著である。
これらの対比的手法は通常オンラインで動作し、多くの明示的なペアワイズ特徴比較に依存する。
本稿では,対数比較の計算を必要とせず,コントラスト的手法を利用したオンラインアルゴリズム swav を提案する。
具体的には、コントラスト学習として機能を直接比較するのではなく、同一画像の異なる拡張(またはビュー)のために生成されたクラスタ割り当て間の一貫性を保ちながら、データを同時にクラスタ化する。
簡単に言えば、別のビューの表現からビューのクラスタ割り当てを予測する、スワップされた予測メカニズムを使用します。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
従来のコントラスト法と比較して、大きなメモリバンクや特別な運動量ネットワークを必要としないため、よりメモリ効率がよい。
さらに,2つのフル解像度ビューの代わりに異なる解像度のビューを混在させることにより,メモリや計算要求を大幅に増加させることなく,新たなデータ拡張戦略であるmulti-cropを提案する。
我々は、ResNet-50でImageNetで75.3%のトップ1の精度を達成し、また、検討されたすべての転送タスクの教師付き事前トレーニングを超越することで、この結果を検証する。
関連論文リスト
- Unsupervised Representation Learning by Balanced Self Attention Matching [2.3020018305241337]
本稿では,BAMと呼ばれる画像特徴を埋め込む自己教師型手法を提案する。
我々は,これらの分布とグローバルな均衡とエントロピー正規化バージョンに一致する損失を最小化することにより,豊かな表現と特徴の崩壊を回避する。
半教師付きベンチマークと移動学習ベンチマークの両方において,先行手法と競合する性能を示す。
論文 参考訳(メタデータ) (2024-08-04T12:52:44Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Clustering by Maximizing Mutual Information Across Views [62.21716612888669]
本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。
提案手法は,様々な画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-24T15:36:49Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Unsupervised Visual Representation Learning by Online Constrained
K-Means [44.38989920488318]
クラスタ識別は、教師なし表現学習の効果的な前提課題である。
オンラインtextbfConstrained textbfK-mtextbfeans (textbfCoKe) を用いたクラスタリングに基づく新しいプリテキストタスクを提案する。
当社のオンライン割当て方式は,グローバルな最適化に近づくための理論的保証を持っている。
論文 参考訳(メタデータ) (2021-05-24T20:38:32Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z) - Evolving Losses for Unsupervised Video Representation Learning [91.2683362199263]
大規模未ラベル映像データから映像表現を学習する新しい手法を提案する。
提案した教師なし表現学習では,単一のRGBネットワークが実現し,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-02-26T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。