論文の概要: Memorization in Self-Supervised Learning Improves Downstream Generalization
- arxiv url: http://arxiv.org/abs/2401.12233v3
- Date: Tue, 18 Jun 2024 14:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 04:34:53.967126
- Title: Memorization in Self-Supervised Learning Improves Downstream Generalization
- Title(参考訳): 自己教師付き学習における覚書化は下流の一般化を改善する
- Authors: Wenhao Wang, Muhammad Ahmad Kaleem, Adam Dziedzic, Michael Backes, Nicolas Papernot, Franziska Boenisch,
- Abstract要約: 自己教師付き学習(SSL)は、ラベルのないデータで純粋に高性能エンコーダを訓練する能力により、最近大きな注目を集めている。
SSL内での暗記を定義するためのフレームワークであるSSLMemを提案する。
- 参考スコア(独自算出の注目度): 49.42010047574022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has recently received significant attention due to its ability to train high-performance encoders purely on unlabeled data-often scraped from the internet. This data can still be sensitive and empirical evidence suggests that SSL encoders memorize private information of their training data and can disclose them at inference time. Since existing theoretical definitions of memorization from supervised learning rely on labels, they do not transfer to SSL. To address this gap, we propose SSLMem, a framework for defining memorization within SSL. Our definition compares the difference in alignment of representations for data points and their augmented views returned by both encoders that were trained on these data points and encoders that were not. Through comprehensive empirical analysis on diverse encoder architectures and datasets we highlight that even though SSL relies on large datasets and strong augmentations-both known in supervised learning as regularization techniques that reduce overfitting-still significant fractions of training data points experience high memorization. Through our empirical results, we show that this memorization is essential for encoders to achieve higher generalization performance on different downstream tasks.
- Abstract(参考訳): 自己教師付き学習(SSL)は、インターネットから取り除かれた未ラベルのデータで、純粋に高性能エンコーダを訓練する能力により、最近大きな注目を集めている。
SSLエンコーダはトレーニングデータのプライベート情報を記憶し、推論時にそれを開示できることを示している。
教師付き学習からの記憶に関する既存の理論的定義はラベルに依存しているため、SSLに転送することはない。
このギャップに対処するため、SSL内で記憶を定義するフレームワークであるSSLMemを提案する。
我々の定義では、データポイントの表現のアライメントの違いと、これらのデータポイントでトレーニングされたエンコーダと、そうでないエンコーダの両方によって返される拡張ビューを比較する。
さまざまなエンコーダアーキテクチャやデータセットに関する包括的な実証分析を通じて、SSLは大規模なデータセットに依存していても、トレーニングデータポイントの過度に適合する部分を減らす正規化技術として、教師付き学習で知られている強力な拡張は、高い記憶力を持つことを強調します。
実験結果から,この暗記は,異なる下流タスクにおいて高い一般化性能を達成するために,エンコーダにとって不可欠であることを示す。
関連論文リスト
- Localizing Memorization in SSL Vision Encoders [24.681788021239118]
SSLエンコーダにおけるメモリのローカライズのための2つの指標について,レイヤ単位(Layermem)とユニット単位単位(unitmem)について提案する。
SSLのメモリ化は層深度とともに増加するが、高いメモリ化ユニットはエンコーダ全体に分散している。
論文 参考訳(メタデータ) (2024-09-27T18:11:00Z) - Context-Aware Predictive Coding: A Representation Learning Framework for WiFi Sensing [0.0]
WiFiセンサーは、様々なセンサーアプリケーションに無線信号を利用する新興技術である。
本稿では,CAPC(Context-Aware Predictive Coding)と呼ばれる新しいSSLフレームワークを紹介する。
CAPCは問題のないデータから効果的に学習し、多様な環境に適応する。
評価の結果、CAPCは他のSSLメソッドや教師付きアプローチよりも優れているだけでなく、優れた一般化能力も達成できることがわかった。
論文 参考訳(メタデータ) (2024-09-16T17:59:49Z) - A Survey of the Self Supervised Learning Mechanisms for Vision Transformers [5.152455218955949]
視覚タスクにおける自己教師あり学習(SSL)の適用は注目されている。
SSL手法を体系的に分類する包括的分類法を開発した。
SSLの背後にあるモチベーションについて議論し、人気のある事前トレーニングタスクをレビューし、この分野の課題と進歩を強調します。
論文 参考訳(メタデータ) (2024-08-30T07:38:28Z) - Reverse Engineering Self-Supervised Learning [17.720366509919167]
自己教師型学習(SSL)は機械学習の強力なツールである。
本稿ではSSL学習表現の詳細な実験的検討を行う。
論文 参考訳(メタデータ) (2023-05-24T23:15:28Z) - Does Decentralized Learning with Non-IID Unlabeled Data Benefit from
Self Supervision? [51.00034621304361]
自己教師型学習(SSL)のレンズによるラベルなしデータによる分散学習の研究
本研究では,分散学習環境下でのコントラスト学習アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2022-10-20T01:32:41Z) - Toward a Geometrical Understanding of Self-supervised Contrastive
Learning [55.83778629498769]
自己教師付き学習(SSL)は、人間のアノテーションがなければ、伝達学習に有効なデータ表現を作成するための最重要技術の一つである。
メインストリームSSL技術は、エンコーダとプロジェクタという2つのカスケードニューラルネットワークを備えた、特定のディープニューラルネットワークアーキテクチャに依存している。
本稿では,データ拡張ポリシーの強みがデータ埋め込みに与える影響について検討する。
論文 参考訳(メタデータ) (2022-05-13T23:24:48Z) - Federated Cycling (FedCy): Semi-supervised Federated Learning of
Surgical Phases [57.90226879210227]
FedCyは、FLと自己教師付き学習を組み合わせた半教師付き学習(FSSL)手法で、ラベル付きビデオとラベルなしビデオの両方の分散データセットを利用する。
外科的段階の自動認識作業において,最先端のFSSL法よりも顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-03-14T17:44:53Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。