論文の概要: A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification
- arxiv url: http://arxiv.org/abs/2407.12210v2
- Date: Thu, 18 Jul 2024 00:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 11:38:46.583126
- Title: A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification
- Title(参考訳): 画像分類による自己監督型事前学習のベンチマーク
- Authors: Markus Marks, Manuel Knott, Neehar Kondapaneni, Elijah Cole, Thijs Defraeye, Fernando Perez-Cruz, Pietro Perona,
- Abstract要約: 自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
- 参考スコア(独自算出の注目度): 51.35500308126506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) is a machine learning approach where the data itself provides supervision, eliminating the need for external labels. The model is forced to learn about the data structure or context by solving a pretext task. With SSL, models can learn from abundant and cheap unlabeled data, significantly reducing the cost of training models where labels are expensive or inaccessible. In Computer Vision, SSL is widely used as pre-training followed by a downstream task, such as supervised transfer, few-shot learning on smaller labeled data sets, and/or unsupervised clustering. Unfortunately, it is infeasible to evaluate SSL methods on all possible downstream tasks and objectively measure the quality of the learned representation. Instead, SSL methods are evaluated using in-domain evaluation protocols, such as fine-tuning, linear probing, and k-nearest neighbors (kNN). However, it is not well understood how well these evaluation protocols estimate the representation quality of a pre-trained model for different downstream tasks under different conditions, such as dataset, metric, and model architecture. We study how classification-based evaluation protocols for SSL correlate and how well they predict downstream performance on different dataset types. Our study includes eleven common image datasets and 26 models that were pre-trained with different SSL methods or have different model backbones. We find that in-domain linear/kNN probing protocols are, on average, the best general predictors for out-of-domain performance. We further investigate the importance of batch normalization and evaluate how robust correlations are for different kinds of dataset domain shifts. We challenge assumptions about the relationship between discriminative and generative self-supervised methods, finding that most of their performance differences can be explained by changes to model backbones.
- Abstract(参考訳): 自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
モデルは、プリテキストタスクを解くことで、データ構造やコンテキストについて学ぶことを余儀なくされます。
SSLによって、モデルは豊富で安価なラベル付きデータから学ぶことができ、ラベルが高価でアクセス不能なトレーニングモデルのコストを大幅に削減できる。
コンピュータビジョンでは、SSLは事前トレーニングや、教師付き転送、より小さなラベル付きデータセットでの少数ショット学習、および/または教師なしクラスタリングといったダウンストリームタスクとして広く使用されている。
残念ながら、すべてのダウンストリームタスクに対してSSLメソッドを評価し、学習した表現の質を客観的に測定することは不可能である。
代わりに、SSLメソッドは、細調整、線形探索、k-nearest neighbors(kNN)などのドメイン内評価プロトコルを用いて評価される。
しかし、これらの評価プロトコルが、データセット、メートル法、モデルアーキテクチャといった異なる条件下で、異なる下流タスクに対する事前訓練されたモデルの表現品質をどのように評価するかはよく分かっていない。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
我々の研究には、11の一般的なイメージデータセットと26のモデルが含まれており、それらは異なるSSLメソッドまたは異なるモデルバックボーンで事前トレーニングされた。
ドメイン内線形/kNN探索プロトコルは,平均してドメイン外性能の予測器として最適であることがわかった。
さらに、バッチ正規化の重要性について検討し、異なる種類のデータセットドメインシフトに対するロバストな相関性を評価する。
識別的自己管理手法と生成的自己管理手法の関係に関する仮定に挑戦し,その性能差の大部分は,モデルバックボーンの変更によって説明できることを示した。
関連論文リスト
- Label-free Monitoring of Self-Supervised Learning Progress [1.2289361708127877]
自己教師付き学習(SSL)は、階層化されていないデータを利用してハイレベルな埋め込み空間を学習する効果的な方法である。
本研究では,非競合データの埋め込みに適用可能ないくつかの評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-10T16:04:10Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Self-supervised visual learning in the low-data regime: a comparative evaluation [40.27083924454058]
自己監視学習(SSL)は、現代のディープニューラルネットワーク(DNN)のための堅牢なトレーニング手法である
この研究は、現代のビジュアルSSLメソッドの分類を導入し、アプローチの主要なカテゴリに関する詳細な説明と洞察を添えた。
ドメイン固有のダウンストリームタスクでは、ドメイン内のローデータSSLプリトレーニングが大規模な事前トレーニングの一般的なアプローチより優れています。
論文 参考訳(メタデータ) (2024-04-26T07:23:14Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - Benchmark for Uncertainty & Robustness in Self-Supervised Learning [0.0]
セルフ・スーパーバイザード・ラーニングは現実世界のアプリケーション、特に医療や自動運転車のようなデータ・ハングリーな分野に不可欠である。
本稿では Jigsaw Puzzles, Context, Rotation, Geometric Transformations Prediction for vision や BERT や GPT for Language Task など,SSL メソッドの変種について検討する。
我々のゴールは、実験から出力されたベンチマークを作成し、信頼性のある機械学習で新しいSSLメソッドの出発点を提供することです。
論文 参考訳(メタデータ) (2022-12-23T15:46:23Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Self-Supervised Learning of Graph Neural Networks: A Unified Review [50.71341657322391]
ラベルなしサンプルを多用する新たなパラダイムとして,自己教師型学習が登場している。
SSLを用いたグラフニューラルネットワーク(GNNs)のトレーニング方法の統一レビューを提供します。
gnnに対するssl手法の処理は,様々な手法の類似性と相違に光を当て,新しい手法やアルゴリズムの開発段階を定めている。
論文 参考訳(メタデータ) (2021-02-22T03:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。