論文の概要: Understanding self-supervised Learning Dynamics without Contrastive
Pairs
- arxiv url: http://arxiv.org/abs/2102.06810v1
- Date: Fri, 12 Feb 2021 22:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 18:48:27.085030
- Title: Understanding self-supervised Learning Dynamics without Contrastive
Pairs
- Title(参考訳): コントラストのない自己指導型学習ダイナミクスの理解
- Authors: Yuandong Tian and Xinlei Chen and Surya Ganguli
- Abstract要約: 自己監視学習(SSL)に対する対照的アプローチは、同じデータポイントの2つの拡張ビュー間の距離を最小限にすることで表現を学習する。
BYOLとSimSiamは、負のペアなしで素晴らしいパフォーマンスを示す。
単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
- 参考スコア(独自算出の注目度): 72.1743263777693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive approaches to self-supervised learning (SSL) learn
representations by minimizing the distance between two augmented views of the
same data point (positive pairs) and maximizing the same from different data
points (negative pairs). However, recent approaches like BYOL and SimSiam, show
remarkable performance {\it without} negative pairs, raising a fundamental
theoretical question: how can SSL with only positive pairs avoid
representational collapse? We study the nonlinear learning dynamics of
non-contrastive SSL in simple linear networks. Our analysis yields conceptual
insights into how non-contrastive SSL methods learn, how they avoid
representational collapse, and how multiple factors, like predictor networks,
stop-gradients, exponential moving averages, and weight decay all come into
play. Our simple theory recapitulates the results of real-world ablation
studies in both STL-10 and ImageNet. Furthermore, motivated by our theory we
propose a novel approach that \emph{directly} sets the predictor based on the
statistics of its inputs. In the case of linear predictors, our approach
outperforms gradient training of the predictor by $5\%$ and on ImageNet it
performs comparably with more complex two-layer non-linear predictors that
employ BatchNorm. Code is released in
https://github.com/facebookresearch/luckmatters/tree/master/ssl.
- Abstract(参考訳): 自己監視学習(SSL)に対する対照的なアプローチは、同じデータポイント(正のペア)の2つの拡張ビュー間の距離を最小化し、異なるデータポイント(負のペア)から同じことを最大化することによって表現を学びます。
しかし、最近の byol や simsiam のようなアプローチは、負のペアを使わずに驚くべき性能を示し、基本的な理論的疑問を提起している。
単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
私たちの分析は、非コントラストSSLメソッドがどのように学習し、表現の崩壊を避けるか、予測ネットワーク、停止勾配、指数移動平均、および重量崩壊などの複数の要因がどのように機能するかについての概念的な洞察を与えます。
この単純な理論は、stl-10とimagenetの両方における実世界のアブレーション研究の結果を再要約する。
さらに,本理論の動機付けとして,入力の統計値に基づいて予測器を設定する新しい手法を提案する。
線形予測器の場合、この手法は予測器の勾配トレーニングを5\%$で上回り、imagenetではバッチノルムを用いたより複雑な2層非線形予測器と比較可能である。
コードはhttps://github.com/facebookresearch/luckmatters/tree/master/sslでリリースされる。
関連論文リスト
- Understanding Representation Learnability of Nonlinear Self-Supervised
Learning [13.965135660149212]
自己教師付き学習(SSL)は、多くの下流タスクにおいて、データ表現の学習性を実証的に示す。
本論文は非線形SSLモデルの学習結果を精度良く解析した最初の論文である。
論文 参考訳(メタデータ) (2024-01-06T13:23:26Z) - Non-contrastive representation learning for intervals from well logs [58.70164460091879]
石油・ガス産業における表現学習問題は、ログデータに基づく表現を一定間隔で提供するモデルを構築することを目的としている。
可能なアプローチの1つは、自己教師付き学習(SSL)である。
私たちは、よくログするデータのための非コントラストSSLを最初に導入しました。
論文 参考訳(メタデータ) (2022-09-28T13:27:10Z) - Siamese Prototypical Contrastive Learning [24.794022951873156]
コントラスト型自己教師学習(Contrastive Self-supervised Learning, CSL)は、大規模データから意味のある視覚的表現を教師なしアプローチで学習する実践的ソリューションである。
本稿では,単純かつ効果的なコントラスト学習フレームワークを導入することで,この問題に対処する。
重要な洞察は、シアメスタイルのメートル法損失を用いて、原型間特徴間の距離を増大させながら、原型内特徴と一致させることである。
論文 参考訳(メタデータ) (2022-08-18T13:25:30Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Whitening for Self-Supervised Representation Learning [129.57407186848917]
本稿では,潜在空間の特徴の白化に基づく自己教師付き表現学習(SSL)のための新しい損失関数を提案する。
我々の解は非対称なネットワークを必要とせず、概念的には単純である。
論文 参考訳(メタデータ) (2020-07-13T12:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。