論文の概要: Memorization in Self-Supervised Learning Improves Downstream Generalization
- arxiv url: http://arxiv.org/abs/2401.12233v3
- Date: Tue, 18 Jun 2024 14:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 04:34:53.967126
- Title: Memorization in Self-Supervised Learning Improves Downstream Generalization
- Title(参考訳): 自己教師付き学習における覚書化は下流の一般化を改善する
- Authors: Wenhao Wang, Muhammad Ahmad Kaleem, Adam Dziedzic, Michael Backes, Nicolas Papernot, Franziska Boenisch,
- Abstract要約: 自己教師付き学習(SSL)は、ラベルのないデータで純粋に高性能エンコーダを訓練する能力により、最近大きな注目を集めている。
SSL内での暗記を定義するためのフレームワークであるSSLMemを提案する。
- 参考スコア(独自算出の注目度): 49.42010047574022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has recently received significant attention due to its ability to train high-performance encoders purely on unlabeled data-often scraped from the internet. This data can still be sensitive and empirical evidence suggests that SSL encoders memorize private information of their training data and can disclose them at inference time. Since existing theoretical definitions of memorization from supervised learning rely on labels, they do not transfer to SSL. To address this gap, we propose SSLMem, a framework for defining memorization within SSL. Our definition compares the difference in alignment of representations for data points and their augmented views returned by both encoders that were trained on these data points and encoders that were not. Through comprehensive empirical analysis on diverse encoder architectures and datasets we highlight that even though SSL relies on large datasets and strong augmentations-both known in supervised learning as regularization techniques that reduce overfitting-still significant fractions of training data points experience high memorization. Through our empirical results, we show that this memorization is essential for encoders to achieve higher generalization performance on different downstream tasks.
- Abstract(参考訳): 自己教師付き学習(SSL)は、インターネットから取り除かれた未ラベルのデータで、純粋に高性能エンコーダを訓練する能力により、最近大きな注目を集めている。
SSLエンコーダはトレーニングデータのプライベート情報を記憶し、推論時にそれを開示できることを示している。
教師付き学習からの記憶に関する既存の理論的定義はラベルに依存しているため、SSLに転送することはない。
このギャップに対処するため、SSL内で記憶を定義するフレームワークであるSSLMemを提案する。
我々の定義では、データポイントの表現のアライメントの違いと、これらのデータポイントでトレーニングされたエンコーダと、そうでないエンコーダの両方によって返される拡張ビューを比較する。
さまざまなエンコーダアーキテクチャやデータセットに関する包括的な実証分析を通じて、SSLは大規模なデータセットに依存していても、トレーニングデータポイントの過度に適合する部分を減らす正規化技術として、教師付き学習で知られている強力な拡張は、高い記憶力を持つことを強調します。
実験結果から,この暗記は,異なる下流タスクにおいて高い一般化性能を達成するために,エンコーダにとって不可欠であることを示す。
関連論文リスト
- SSL-Auth: An Authentication Framework by Fragile Watermarking for
Pre-trained Encoders in Self-supervised Learning [22.64707392046704]
堅牢なエンコーダをトレーニングするためのラベルのないデータセットを活用するパラダイムであるセルフ教師あり学習(SSL)が、先日、大きな成功を収めた。
最近の研究は、バックドアや敵の脅威を含む、訓練済みのエンコーダの脆弱性に光を当てている。
エンコーダトレーナーの知的財産を保護し、デプロイされたエンコーダの信頼性を確保することは、SSLにおいて顕著な課題となる。
SSL-Authは、トレーニング済みエンコーダ用に明示的に設計された最初の認証フレームワークである。
論文 参考訳(メタデータ) (2023-08-09T02:54:11Z) - Reverse Engineering Self-Supervised Learning [17.720366509919167]
自己教師型学習(SSL)は機械学習の強力なツールである。
本稿ではSSL学習表現の詳細な実験的検討を行う。
論文 参考訳(メタデータ) (2023-05-24T23:15:28Z) - Self-Supervised PPG Representation Learning Shows High Inter-Subject
Variability [3.8036939971290007]
本稿では,信号再構成を前提とした自己教師付き学習(SSL)手法を提案し,汎用的なPSG表現を学習する。
結果として、SSLを使用するラベルデータ設定(クラス毎に10のサンプル)が非常に限定されていることが分かる。
SSLは、ラベルスカースレジームにおけるPSGデータに機械学習モデルが広く使われるための道を開くかもしれない。
論文 参考訳(メタデータ) (2022-12-07T19:02:45Z) - Does Decentralized Learning with Non-IID Unlabeled Data Benefit from
Self Supervision? [51.00034621304361]
自己教師型学習(SSL)のレンズによるラベルなしデータによる分散学習の研究
本研究では,分散学習環境下でのコントラスト学習アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2022-10-20T01:32:41Z) - Toward a Geometrical Understanding of Self-supervised Contrastive
Learning [55.83778629498769]
自己教師付き学習(SSL)は、人間のアノテーションがなければ、伝達学習に有効なデータ表現を作成するための最重要技術の一つである。
メインストリームSSL技術は、エンコーダとプロジェクタという2つのカスケードニューラルネットワークを備えた、特定のディープニューラルネットワークアーキテクチャに依存している。
本稿では,データ拡張ポリシーの強みがデータ埋め込みに与える影響について検討する。
論文 参考訳(メタデータ) (2022-05-13T23:24:48Z) - Federated Cycling (FedCy): Semi-supervised Federated Learning of
Surgical Phases [57.90226879210227]
FedCyは、FLと自己教師付き学習を組み合わせた半教師付き学習(FSSL)手法で、ラベル付きビデオとラベルなしビデオの両方の分散データセットを利用する。
外科的段階の自動認識作業において,最先端のFSSL法よりも顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-03-14T17:44:53Z) - Augmented Contrastive Self-Supervised Learning for Audio Invariant
Representations [28.511060004984895]
ラベルのないデータから不変表現を学習するための拡張コントラスト型SSLフレームワークを提案する。
提案手法はラベルのない入力データに様々な摂動を適用し,コントラスト学習を用いて,そのような摂動に頑健な表現を学習する。
論文 参考訳(メタデータ) (2021-12-21T02:50:53Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。