論文の概要: Masked Unsupervised Self-training for Zero-shot Image Classification
- arxiv url: http://arxiv.org/abs/2206.02967v1
- Date: Tue, 7 Jun 2022 02:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 05:18:30.090594
- Title: Masked Unsupervised Self-training for Zero-shot Image Classification
- Title(参考訳): ゼロショット画像分類のためのマスク非教師なし自己学習
- Authors: Junnan Li, Silvio Savarese, Steven C.H. Hoi
- Abstract要約: Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
- 参考スコア(独自算出の注目度): 98.23094305347709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art computer vision models are mostly trained with supervised
learning using human-labeled images, which limits their scalability due to the
expensive annotation cost. While self-supervised representation learning has
achieved impressive progress, it still requires a second stage of finetuning on
labeled data. On the other hand, models pre-trained with large-scale text-image
supervision (e.g., CLIP) have enabled zero-shot transfer to downstream image
classification tasks. However, the zero-shot performance of CLIP-like models
are often insufficient for real-world adoption. In this paper, we aim to
leverage the abundant unlabeled data to improve the performance of a
pre-trained zero-shot classifier on downstream tasks. We propose Masked
Unsupervised Self-Training (MUST), a new approach which leverages two different
and complimentary sources of supervision: pseudo-labels and raw images. MUST
jointly optimizes three objectives to learn both class-level global feature and
pixel-level local feature and enforces a regularization between the two. We
demonstrate the efficacy of MUST on 8 downstream tasks across a variety of
domains, where it improves upon CLIP by a large margin and narrows the
performance gap between unsupervised and supervised classification. For
instance, MUST achieves a zero-shot top-1 accuracy of 77.7% on ImageNet using
ViT-B, +9.4% higher than CLIP. Our code is available at
https://github.com/salesforce/MUST.
- Abstract(参考訳): 最先端のコンピュータビジョンモデルは、主に人間のラベル画像を用いた教師付き学習で訓練されており、高価なアノテーションコストのためスケーラビリティが制限される。
自己教師付き表現学習は目覚ましい進歩を遂げているが、ラベル付きデータを微調整するには第2段階が必要である。
一方、大規模なテキスト画像監視(例えばCLIP)で事前訓練されたモデルでは、下流の画像分類タスクへのゼロショット転送が可能になっている。
しかし、CLIPライクなモデルのゼロショット性能は、実際の採用には不十分であることが多い。
本稿では,下流タスクにおける事前学習されたゼロショット分類器の性能向上のために,ラベルなしデータを活用することを目的とする。
我々は,疑似ラベルと生画像の2つの異なる補完的監督源を活用する新しい手法であるmasted unsupervised self-training (must)を提案する。
MUSTはクラスレベルのグローバル特徴とピクセルレベルのローカル特徴の両方を学ぶための3つの目的を共同で最適化し、両者の正規化を強制する。
様々な領域にわたる8つの下流タスクに対するMUSTの有効性を実証し、CLIPを大きなマージンで改善し、教師なし分類と教師なし分類のパフォーマンスギャップを狭める。
例えば、MUST は ViT-B を用いて ImageNet 上で 77.7% のゼロショットトップ-1 精度を達成している。
私たちのコードはhttps://github.com/salesforce/MUST.comで利用可能です。
関連論文リスト
- Online Zero-Shot Classification with CLIP [9.099027915077698]
オンラインゼロショット転送のシナリオについて検討し、各画像がランダムな順序で分類され、1回だけ訪れて予測を得る。
バニラゼロショットの分類と比較すると、提案フレームワークはオンラインサービスに対する柔軟性を保っている。
オンラインゼロショット転送方式(OnZeta)は,データセット全体にアクセスすることなく,ImageNet上で78.94%の精度を実現する。
論文 参考訳(メタデータ) (2024-08-23T18:12:12Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文 参考訳(メタデータ) (2023-08-04T18:11:40Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z) - Self-Supervised Classification Network [3.8073142980733]
自己監視型エンドツーエンド分類ニューラルネットワークはラベルと表現を同時に学習する。
大規模なImageNetデータセットでうまく機能する最初の監視されていないエンドツーエンドの分類ネットワーク。
論文 参考訳(メタデータ) (2021-03-19T19:29:42Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。