論文の概要: Representation Learning Dynamics of Self-Supervised Models
- arxiv url: http://arxiv.org/abs/2309.02011v1
- Date: Tue, 5 Sep 2023 07:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 16:02:40.826353
- Title: Representation Learning Dynamics of Self-Supervised Models
- Title(参考訳): 自己監督型モデルの表現学習ダイナミクス
- Authors: Pascal Esser, Satyaki Mukherjee, Debarghya Ghoshdastidar
- Abstract要約: 自己監視学習(SSL)は、非競合データから表現を学習するための重要なパラダイムである。
SSLモデルの学習力学、特に対照的な損失と非対照的な損失を最小化して得られる表現について検討する。
グラスマン多様体上の勾配降下を用いて訓練されたSSLモデルの正確な学習ダイナミクスを導出する。
- 参考スコア(独自算出の注目度): 7.289672463326423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) is an important paradigm for learning
representations from unlabelled data, and SSL with neural networks has been
highly successful in practice. However current theoretical analysis of SSL is
mostly restricted to generalisation error bounds. In contrast, learning
dynamics often provide a precise characterisation of the behaviour of neural
networks based models but, so far, are mainly known in supervised settings. In
this paper, we study the learning dynamics of SSL models, specifically
representations obtained by minimising contrastive and non-contrastive losses.
We show that a naive extension of the dymanics of multivariate regression to
SSL leads to learning trivial scalar representations that demonstrates
dimension collapse in SSL. Consequently, we formulate SSL objectives with
orthogonality constraints on the weights, and derive the exact (network width
independent) learning dynamics of the SSL models trained using gradient descent
on the Grassmannian manifold. We also argue that the infinite width
approximation of SSL models significantly deviate from the neural tangent
kernel approximations of supervised models. We numerically illustrate the
validity of our theoretical findings, and discuss how the presented results
provide a framework for further theoretical analysis of contrastive and
non-contrastive SSL.
- Abstract(参考訳): 自己監視学習(SSL)は、非競合データから表現を学習するための重要なパラダイムであり、ニューラルネットワークによるSSLは、実際に高い成功を収めている。
しかし、SSLの現在の理論的解析は主に一般化エラー境界に限定されている。
対照的に、学習力学はしばしばニューラルネットワークベースのモデルの振る舞いを正確に特徴づけるが、今のところは主に教師付き設定で知られている。
本稿では,SSLモデルの学習力学,特にコントラストと非コントラストの損失を最小限に抑えた表現について検討する。
SSLにおける多変量回帰のダイマニクスの素直な拡張は、SSLにおける次元の崩壊を示す自明なスカラー表現の学習につながることを示す。
その結果、重みの直交制約でSSL目標を定式化し、グラスマン多様体上の勾配降下を用いて訓練されたSSLモデルの正確な(ネットワーク幅に依存しない)学習力学を導出する。
また、sslモデルの無限幅近似は教師付きモデルの神経接核近似から著しく逸脱していると主張する。
本論文は,本理論の妥当性を数値的に示し,コントラストと非一貫性のsslを理論的に解析するための枠組みについて考察する。
関連論文リスト
- Reinforcement Learning-Guided Semi-Supervised Learning [20.599506122857328]
本稿では,SSLを片腕バンディット問題として定式化する新しい強化学習ガイド型SSL手法 RLGSSL を提案する。
RLGSSLは、ラベル付きデータとラベルなしデータのバランスを保ち、一般化性能を向上させるために、慎重に設計された報酬関数を組み込んでいる。
我々は,複数のベンチマークデータセットに対する広範な実験を通じてRCGSSLの有効性を実証し,我々の手法が最先端のSSL手法と比較して一貫した優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-02T21:52:24Z) - Understanding Representation Learnability of Nonlinear Self-Supervised
Learning [13.965135660149212]
自己教師付き学習(SSL)は、多くの下流タスクにおいて、データ表現の学習性を実証的に示す。
本論文は非線形SSLモデルの学習結果を精度良く解析した最初の論文である。
論文 参考訳(メタデータ) (2024-01-06T13:23:26Z) - Explaining, Analyzing, and Probing Representations of Self-Supervised
Learning Models for Sensor-based Human Activity Recognition [2.2082422928825136]
自己教師付き学習(SSL)フレームワークは、センサベースヒューマンアクティビティ認識(HAR)に広く応用されている。
本稿では,最近のSSLフレームワークであるSimCLRとVICRegの深層表現を解析することを目的とする。
論文 参考訳(メタデータ) (2023-04-14T07:53:59Z) - LSFSL: Leveraging Shape Information in Few-shot Learning [11.145085584637746]
少ないショットの学習技術は、限られた経験から人間がどのように学習するかに似た、少ないサンプルを使用して、データの基盤となるパターンを学習しようとする。
この限定データシナリオでは、ショートカット学習やテクスチャバイアス行動など、ディープニューラルネットワークに関連する課題がさらに悪化する。
本研究では,データに含まれる暗黙的な事前情報を利用して,より一般化可能な特徴を学習するためにモデルを強制するLSFSLを提案する。
論文 参考訳(メタデータ) (2023-04-13T16:59:22Z) - The Geometry of Self-supervised Learning Models and its Impact on
Transfer Learning [62.601681746034956]
自己教師型学習(SSL)はコンピュータビジョンにおいて望ましいパラダイムとして登場した。
本稿では,各特徴空間内の局所的近傍を用いて異なるSSLモデルを分析するためのデータ駆動幾何学的手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T18:15:38Z) - Improving Self-Supervised Learning by Characterizing Idealized
Representations [155.1457170539049]
与えられたデータ拡張に不変なタスクに対して必要かつ十分な条件を証明します。
対照的に、我々のフレームワークは、従来の手法に対して単純だが重要な改善を規定している。
非コントラスト学習では、私たちのフレームワークを使って、シンプルで斬新な目的を導き出します。
論文 参考訳(メタデータ) (2022-09-13T18:01:03Z) - Self-Supervised Representation Learning on Neural Network Weights for
Model Characteristic Prediction [1.9659095632676094]
自己監視学習(SSL)は有用かつ情報保存的な表現を学ぶことが示されている。
ニューラルネットワーク(NN)の人口重みのニューラルネットワーク表現をSSLで学習することを提案する。
実験により,本領域における自己教師型表現学習は,様々なNNモデル特性を回復できることが示された。
論文 参考訳(メタデータ) (2021-10-28T16:48:15Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - On Data-Augmentation and Consistency-Based Semi-Supervised Learning [77.57285768500225]
最近提案された整合性に基づく半教師付き学習(SSL)手法は,複数のSSLタスクにおいて最先端技術である。
これらの進歩にもかかわらず、これらの手法の理解はまだ比較的限られている。
論文 参考訳(メタデータ) (2021-01-18T10:12:31Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。