論文の概要: Understanding Failure Modes of Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2203.01881v1
- Date: Thu, 3 Mar 2022 17:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 14:36:48.414700
- Title: Understanding Failure Modes of Self-Supervised Learning
- Title(参考訳): 自己教師付き学習の失敗モードの理解
- Authors: Neha Mukund Kalibhat, Kanika Narang, Liang Tan, Hamed Firooz, Maziar
Sanjabi, Soheil Feizi
- Abstract要約: 本稿では,下流課題における誤分類の原因を理解することによって,自己教師型モデルの表現空間について検討する。
本稿では,サンプルが誤分類される可能性を予測できる自己監督表現品質スコア(Qスコア)を提案する。
Q-Scoreは、画像Net-100上でSimCLRの相対的な精度を3.26%向上させる低品質表現の正規化としても使用できる。
- 参考スコア(独自算出の注目度): 46.982457058129214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-supervised learning methods have shown impressive results in downstream
classification tasks. However, there is limited work in understanding their
failure models and interpreting the learned representations of these models. In
this paper, we tackle these issues and study the representation space of
self-supervised models by understanding the underlying reasons for
misclassifications in a downstream task. Over several state-of-the-art
self-supervised models including SimCLR, SwaV, MoCo V2 and BYOL, we observe
that representations of correctly classified samples have few discriminative
features with highly deviated values compared to other features. This is in a
clear contrast with representations of misclassified samples. We also observe
that noisy features in the representation space often correspond to spurious
attributes in images making the models less interpretable. Building on these
observations, we propose a sample-wise Self-Supervised Representation Quality
Score (or, Q-Score) that, without access to any label information, is able to
predict if a given sample is likely to be misclassified in the downstream task,
achieving an AUPRC of up to 0.90. Q-Score can also be used as a regularization
to remedy low-quality representations leading to 3.26% relative improvement in
accuracy of SimCLR on ImageNet-100. Moreover, we show that Q-Score
regularization increases representation sparsity, thus reducing noise and
improving interpretability through gradient heatmaps.
- Abstract(参考訳): 自己教師付き学習手法は下流分類タスクにおいて顕著な結果を示した。
しかし、それらの失敗モデルを理解し、これらのモデルの学習された表現を解釈する作業は限られている。
本稿では,これらの課題に取り組み,下流タスクにおける誤分類の根本原因を理解することにより,自己教師付きモデルの表現空間について検討する。
我々は,SimCLR,SwaV,MoCo V2,BYOLなどの最先端の自己教師型モデルにおいて,正確な分類されたサンプルの表現は,他の特徴と比較して高い差分値を持つ識別的特徴がほとんどないことを示した。
これは、誤って分類されたサンプルの表現と明らかに対照的である。
また、表現空間におけるノイズの特徴は、しばしば画像のスプリアス属性に対応し、モデルの解釈が困難になる。
これらの観察に基づいて,ラベル情報にアクセスせずに,下流タスクで与えられたサンプルが誤分類される可能性があり,最大 0.90 の auprc を達成することができる,サンプル回りの自己教師付き表現品質スコア(または q-score)を提案する。
Q-Scoreは、画像Net-100上でSimCLRの相対的な精度を3.26%向上させる低品質表現の正規化としても使用できる。
さらに,q-score正則化は表現スパーシティを増加させ,ノイズを低減し,勾配熱マップによる解釈性を向上させることを示した。
関連論文リスト
- A Self-Supervised Learning Pipeline for Demographically Fair Facial Attribute Classification [3.5092955099876266]
本稿では,人口統計学的に公平な顔属性分類のための完全自己教師付きパイプラインを提案する。
我々は、事前訓練されたエンコーダ、多様なデータキュレーション技術、メタラーニングに基づく重み付きコントラスト学習を通じて、完全にラベル付けされていないデータを活用する。
論文 参考訳(メタデータ) (2024-07-14T07:11:57Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - Improving Self-Supervised Learning by Characterizing Idealized
Representations [155.1457170539049]
与えられたデータ拡張に不変なタスクに対して必要かつ十分な条件を証明します。
対照的に、我々のフレームワークは、従来の手法に対して単純だが重要な改善を規定している。
非コントラスト学習では、私たちのフレームワークを使って、シンプルで斬新な目的を導き出します。
論文 参考訳(メタデータ) (2022-09-13T18:01:03Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Shaping Visual Representations with Attributes for Few-Shot Learning [5.861206243996454]
少ないショット認識は、低データ体制下での新規カテゴリの認識を目的としている。
近年,メートル法に基づく数ショット学習法は有望な性能を達成している。
本稿では,属性型学習(ASL)を提案する。
論文 参考訳(メタデータ) (2021-12-13T03:16:19Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。