論文の概要: Representation Learning Dynamics of Self-Supervised Models
- arxiv url: http://arxiv.org/abs/2309.02011v1
- Date: Tue, 5 Sep 2023 07:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 16:02:40.826353
- Title: Representation Learning Dynamics of Self-Supervised Models
- Title(参考訳): 自己監督型モデルの表現学習ダイナミクス
- Authors: Pascal Esser, Satyaki Mukherjee, Debarghya Ghoshdastidar
- Abstract要約: 自己監視学習(SSL)は、非競合データから表現を学習するための重要なパラダイムである。
SSLモデルの学習力学、特に対照的な損失と非対照的な損失を最小化して得られる表現について検討する。
グラスマン多様体上の勾配降下を用いて訓練されたSSLモデルの正確な学習ダイナミクスを導出する。
- 参考スコア(独自算出の注目度): 7.289672463326423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) is an important paradigm for learning
representations from unlabelled data, and SSL with neural networks has been
highly successful in practice. However current theoretical analysis of SSL is
mostly restricted to generalisation error bounds. In contrast, learning
dynamics often provide a precise characterisation of the behaviour of neural
networks based models but, so far, are mainly known in supervised settings. In
this paper, we study the learning dynamics of SSL models, specifically
representations obtained by minimising contrastive and non-contrastive losses.
We show that a naive extension of the dymanics of multivariate regression to
SSL leads to learning trivial scalar representations that demonstrates
dimension collapse in SSL. Consequently, we formulate SSL objectives with
orthogonality constraints on the weights, and derive the exact (network width
independent) learning dynamics of the SSL models trained using gradient descent
on the Grassmannian manifold. We also argue that the infinite width
approximation of SSL models significantly deviate from the neural tangent
kernel approximations of supervised models. We numerically illustrate the
validity of our theoretical findings, and discuss how the presented results
provide a framework for further theoretical analysis of contrastive and
non-contrastive SSL.
- Abstract(参考訳): 自己監視学習(SSL)は、非競合データから表現を学習するための重要なパラダイムであり、ニューラルネットワークによるSSLは、実際に高い成功を収めている。
しかし、SSLの現在の理論的解析は主に一般化エラー境界に限定されている。
対照的に、学習力学はしばしばニューラルネットワークベースのモデルの振る舞いを正確に特徴づけるが、今のところは主に教師付き設定で知られている。
本稿では,SSLモデルの学習力学,特にコントラストと非コントラストの損失を最小限に抑えた表現について検討する。
SSLにおける多変量回帰のダイマニクスの素直な拡張は、SSLにおける次元の崩壊を示す自明なスカラー表現の学習につながることを示す。
その結果、重みの直交制約でSSL目標を定式化し、グラスマン多様体上の勾配降下を用いて訓練されたSSLモデルの正確な(ネットワーク幅に依存しない)学習力学を導出する。
また、sslモデルの無限幅近似は教師付きモデルの神経接核近似から著しく逸脱していると主張する。
本論文は,本理論の妥当性を数値的に示し,コントラストと非一貫性のsslを理論的に解析するための枠組みについて考察する。
関連論文リスト
- On the Discriminability of Self-Supervised Representation Learning [38.598160031349686]
自己教師付き学習(SSL)は、最近、下流の視覚タスクで大きな成功を収めた。
特に複雑な下流タスクにおいて、SSLと教師あり学習(SL)の間には、注目すべきギャップがまだ残っている。
論文 参考訳(メタデータ) (2024-07-18T14:18:03Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Erasing the Bias: Fine-Tuning Foundation Models for Semi-Supervised Learning [4.137391543972184]
半教師付き学習(SSL)は目覚ましい進歩をみせており、多くの方法のバリエーションをもたらしている。
本稿では,FinSSLという新しいSSLアプローチを提案する。
我々は、FineSSLが複数のベンチマークデータセットにSSLの新たな状態を設定し、トレーニングコストを6倍以上削減し、さまざまな微調整と現代的なSSLアルゴリズムをシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2024-05-20T03:33:12Z) - Understanding Representation Learnability of Nonlinear Self-Supervised
Learning [13.965135660149212]
自己教師付き学習(SSL)は、多くの下流タスクにおいて、データ表現の学習性を実証的に示す。
本論文は非線形SSLモデルの学習結果を精度良く解析した最初の論文である。
論文 参考訳(メタデータ) (2024-01-06T13:23:26Z) - Explaining, Analyzing, and Probing Representations of Self-Supervised
Learning Models for Sensor-based Human Activity Recognition [2.2082422928825136]
自己教師付き学習(SSL)フレームワークは、センサベースヒューマンアクティビティ認識(HAR)に広く応用されている。
本稿では,最近のSSLフレームワークであるSimCLRとVICRegの深層表現を解析することを目的とする。
論文 参考訳(メタデータ) (2023-04-14T07:53:59Z) - LSFSL: Leveraging Shape Information in Few-shot Learning [11.145085584637746]
少ないショットの学習技術は、限られた経験から人間がどのように学習するかに似た、少ないサンプルを使用して、データの基盤となるパターンを学習しようとする。
この限定データシナリオでは、ショートカット学習やテクスチャバイアス行動など、ディープニューラルネットワークに関連する課題がさらに悪化する。
本研究では,データに含まれる暗黙的な事前情報を利用して,より一般化可能な特徴を学習するためにモデルを強制するLSFSLを提案する。
論文 参考訳(メタデータ) (2023-04-13T16:59:22Z) - The Geometry of Self-supervised Learning Models and its Impact on
Transfer Learning [62.601681746034956]
自己教師型学習(SSL)はコンピュータビジョンにおいて望ましいパラダイムとして登場した。
本稿では,各特徴空間内の局所的近傍を用いて異なるSSLモデルを分析するためのデータ駆動幾何学的手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T18:15:38Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - On Data-Augmentation and Consistency-Based Semi-Supervised Learning [77.57285768500225]
最近提案された整合性に基づく半教師付き学習(SSL)手法は,複数のSSLタスクにおいて最先端技術である。
これらの進歩にもかかわらず、これらの手法の理解はまだ比較的限られている。
論文 参考訳(メタデータ) (2021-01-18T10:12:31Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。