論文の概要: Measuring Self-Supervised Representation Quality for Downstream
Classification using Discriminative Features
- arxiv url: http://arxiv.org/abs/2203.01881v6
- Date: Tue, 12 Dec 2023 22:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 21:29:08.470629
- Title: Measuring Self-Supervised Representation Quality for Downstream
Classification using Discriminative Features
- Title(参考訳): 識別特徴を用いた下流分類における自己監督表現品質の測定
- Authors: Neha Kalibhat, Kanika Narang, Hamed Firooz, Maziar Sanjabi, Soheil
Feizi
- Abstract要約: 我々は,SimCLR,SwaV,MoCo,BYOL,DINO,SimSiam,VICReg,Barlow Twinsといった最先端の自己教師型モデルの表現空間について検討した。
本稿では,標本が誤分類される可能性を確実に予測できる教師なしスコアである自己監督表現品質スコア(Qスコア)を提案する。
Q-Score正規化による微調整により、SSLモデルの線形探索精度はImageNet-100で5.8%、ImageNet-1Kで3.7%向上する。
- 参考スコア(独自算出の注目度): 56.89813105411331
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-supervised learning (SSL) has shown impressive results in downstream
classification tasks. However, there is limited work in understanding their
failure modes and interpreting their learned representations. In this paper, we
study the representation space of state-of-the-art self-supervised models
including SimCLR, SwaV, MoCo, BYOL, DINO, SimSiam, VICReg and Barlow Twins.
Without the use of class label information, we discover discriminative features
that correspond to unique physical attributes in images, present mostly in
correctly-classified representations. Using these features, we can compress the
representation space by up to 40% without significantly affecting linear
classification performance. We then propose Self-Supervised Representation
Quality Score (or Q-Score), an unsupervised score that can reliably predict if
a given sample is likely to be mis-classified during linear evaluation,
achieving AUPRC of 91.45 on ImageNet-100 and 78.78 on ImageNet-1K. Q-Score can
also be used as a regularization term on pre-trained encoders to remedy
low-quality representations. Fine-tuning with Q-Score regularization can boost
the linear probing accuracy of SSL models by up to 5.8% on ImageNet-100 and
3.7% on ImageNet-1K compared to their baselines. Finally, using gradient
heatmaps and Salient ImageNet masks, we define a metric to quantify the
interpretability of each representation. We show that discriminative features
are strongly correlated to core attributes and, enhancing these features
through Q-score regularization makes SSL representations more interpretable.
- Abstract(参考訳): 自己教師付き学習(SSL)は下流の分類タスクにおいて顕著な結果を示している。
しかし、失敗モードを理解し、学習した表現を解釈する作業は限られている。
本稿では,SimCLR,SwaV,MoCo,BYOL,DINO,SimSiam,VICReg,Barlow Twinsといった最先端の自己教師型モデルの表現空間について検討する。
クラスラベル情報を使わずに、画像のユニークな物理的属性に対応する識別的特徴を発見し、主に正しく分類された表現に現れる。
これらの特徴を用いて、線形分類性能に大きな影響を及ぼすことなく、表現空間を最大40%圧縮することができる。
次に,画像Net-100で91.45,ImageNet-1Kで78.78のAUPRCを達成し,線形評価中に標本が誤分類される可能性を確実に予測できる教師なしスコアであるセルフ・スーパービジョン表現品質スコア(あるいはQスコア)を提案する。
Q-Scoreは、訓練済みエンコーダの正規化用語としても使用でき、低品質表現を補うことができる。
Q-Score正規化による微調整により、SSLモデルの線形探索精度はImageNet-100では5.8%、ImageNet-1Kでは3.7%向上する。
最後に、勾配ヒートマップとsaient imagenetマスクを用いて、各表現の解釈可能性の定量化のためのメトリックを定義する。
識別機能はコア属性と強く関連していることを示し,q-score正規化によってssl表現をより解釈可能にした。
関連論文リスト
- A Self-Supervised Learning Pipeline for Demographically Fair Facial Attribute Classification [3.5092955099876266]
本稿では,人口統計学的に公平な顔属性分類のための完全自己教師付きパイプラインを提案する。
我々は、事前訓練されたエンコーダ、多様なデータキュレーション技術、メタラーニングに基づく重み付きコントラスト学習を通じて、完全にラベル付けされていないデータを活用する。
論文 参考訳(メタデータ) (2024-07-14T07:11:57Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - Improving Self-Supervised Learning by Characterizing Idealized
Representations [155.1457170539049]
与えられたデータ拡張に不変なタスクに対して必要かつ十分な条件を証明します。
対照的に、我々のフレームワークは、従来の手法に対して単純だが重要な改善を規定している。
非コントラスト学習では、私たちのフレームワークを使って、シンプルで斬新な目的を導き出します。
論文 参考訳(メタデータ) (2022-09-13T18:01:03Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Shaping Visual Representations with Attributes for Few-Shot Learning [5.861206243996454]
少ないショット認識は、低データ体制下での新規カテゴリの認識を目的としている。
近年,メートル法に基づく数ショット学習法は有望な性能を達成している。
本稿では,属性型学習(ASL)を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:16:19Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。