論文の概要: Label-free Monitoring of Self-Supervised Learning Progress
- arxiv url: http://arxiv.org/abs/2409.06612v1
- Date: Tue, 10 Sep 2024 16:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 16:59:09.630346
- Title: Label-free Monitoring of Self-Supervised Learning Progress
- Title(参考訳): 自己監督型学習過程のラベルフリーモニタリング
- Authors: Isaac Xu, Scott Lowe, Thomas Trappenberg,
- Abstract要約: 自己教師付き学習(SSL)は、階層化されていないデータを利用してハイレベルな埋め込み空間を学習する効果的な方法である。
本研究では,非競合データの埋め込みに適用可能ないくつかの評価指標を提案する。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) is an effective method for exploiting unlabelled data to learn a high-level embedding space that can be used for various downstream tasks. However, existing methods to monitor the quality of the encoder -- either during training for one model or to compare several trained models -- still rely on access to annotated data. When SSL methodologies are applied to new data domains, a sufficiently large labelled dataset may not always be available. In this study, we propose several evaluation metrics which can be applied on the embeddings of unlabelled data and investigate their viability by comparing them to linear probe accuracy (a common metric which utilizes an annotated dataset). In particular, we apply $k$-means clustering and measure the clustering quality with the silhouette score and clustering agreement. We also measure the entropy of the embedding distribution. We find that while the clusters did correspond better to the ground truth annotations as training of the network progressed, label-free clustering metrics correlated with the linear probe accuracy only when training with SSL methods SimCLR and MoCo-v2, but not with SimSiam. Additionally, although entropy did not always have strong correlations with LP accuracy, this appears to be due to instability arising from early training, with the metric stabilizing and becoming more reliable at later stages of learning. Furthermore, while entropy generally decreases as learning progresses, this trend reverses for SimSiam. More research is required to establish the cause for this unexpected behaviour. Lastly, we find that while clustering based approaches are likely only viable for same-architecture comparisons, entropy may be architecture-independent.
- Abstract(参考訳): 自己教師付き学習(SSL)は、さまざまな下流タスクに使用できるハイレベルな埋め込み空間を学習するために、ラベルのないデータを活用する効果的な方法である。
しかし、エンコーダの品質(あるモデルのトレーニング中か、複数のモデルのトレーニング中)を監視する既存の方法は、アノテートされたデータへのアクセスに依存している。
SSLメソッドが新しいデータドメインに適用される場合、十分な大きなラベル付きデータセットが常に利用できるとは限らない。
本研究では,未ラベルデータの埋め込みに適用可能ないくつかの評価指標を提案し,それらを線形プローブ精度(注釈付きデータセットを用いた共通メトリクス)と比較することにより,それらの生存可能性について検討する。
特に、$k$-meansクラスタリングを適用し、シルエットスコアとクラスタリング合意でクラスタリング品質を測定する。
また,埋め込み分布のエントロピーを測定した。
その結果、ネットワークのトレーニングが進むにつれて、クラスタは地上の真理アノテーションとよく対応しているのに対し、ラベルなしクラスタリングのメトリクスは、SSLメソッドSimCLRとMoCo-v2のトレーニングでのみ線形プローブ精度と相関するが、SimSiamでは対応しないことがわかった。
加えて、エントロピーはLPの精度と強い相関関係は持たなかったが、これは初期の訓練によって生じる不安定性によるもので、メートル法が安定し、その後の学習の段階でより信頼性が高まるためと思われる。
さらに、エントロピーは学習が進むにつれて一般的に減少するが、この傾向はSimSiamにとって逆である。
この予期せぬ行動の原因を確立するには、さらなる研究が必要である。
最後に、クラスタリングに基づくアプローチは、同じアーキテクチャの比較でのみ有効である可能性が高いが、エントロピーはアーキテクチャに依存しない可能性がある。
関連論文リスト
- A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label
Regeneration and BEVMix [59.55173022987071]
クラス非依存動作予測のための半教師あり学習の可能性について検討する。
我々のフレームワークは一貫性に基づく自己学習パラダイムを採用しており、ラベルのないデータからモデルを学習することができる。
本手法は,弱さと完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-12-13T09:32:50Z) - ProtoCon: Pseudo-label Refinement via Online Clustering and Prototypical
Consistency for Efficient Semi-supervised Learning [60.57998388590556]
ProtoConは信頼性に基づく疑似ラベル作成の新しい手法である。
ProtoConのオンライン版では、データセット全体のラベル履歴を1回のトレーニングサイクルで活用することができる。
最先端のデータセットよりも大幅に向上し、より高速に収束する。
論文 参考訳(メタデータ) (2023-03-22T23:51:54Z) - Benchmark for Uncertainty & Robustness in Self-Supervised Learning [0.0]
セルフ・スーパーバイザード・ラーニングは現実世界のアプリケーション、特に医療や自動運転車のようなデータ・ハングリーな分野に不可欠である。
本稿では Jigsaw Puzzles, Context, Rotation, Geometric Transformations Prediction for vision や BERT や GPT for Language Task など,SSL メソッドの変種について検討する。
我々のゴールは、実験から出力されたベンチマークを作成し、信頼性のある機械学習で新しいSSLメソッドの出発点を提供することです。
論文 参考訳(メタデータ) (2022-12-23T15:46:23Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Hyperspherical Consistency Regularization [45.00073340936437]
我々は,自己教師あり学習と教師あり学習の関係について検討し,自己教師あり学習がデータ効率のよい深層学習にどのように役立つかを検討する。
超球面整合正則化(HCR)を提案し,特徴依存情報を用いた分類器の正規化を行い,ラベルからのバイアスを回避する。
論文 参考訳(メタデータ) (2022-06-02T02:41:13Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Matching Distributions via Optimal Transport for Semi-Supervised
Learning [31.533832244923843]
SSL(Semi-Supervised Learning)アプローチは、ラベルのないデータを使用する上で、影響力のあるフレームワークである。
本稿では、離散的経験的確率測度間の類似性の指標として最適輸送(OT)手法を採用する新しい手法を提案する。
提案手法を標準データセット上で,最先端のSSLアルゴリズムを用いて評価し,SSLアルゴリズムの優位性と有効性を示す。
論文 参考訳(メタデータ) (2020-12-04T11:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。