論文の概要: Understanding the Role of Nonlinearity in Training Dynamics of
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2206.01342v1
- Date: Thu, 2 Jun 2022 23:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 04:18:07.220031
- Title: Understanding the Role of Nonlinearity in Training Dynamics of
Contrastive Learning
- Title(参考訳): コントラスト学習のトレーニングダイナミクスにおける非線形性の役割の理解
- Authors: Yuandong Tian
- Abstract要約: 本研究では,1層および2層非線形ネットワーク上でのコントラスト学習(CL)の学習力学における非線形性の役割について検討する。
非線形性の存在は1層設定においても多くの局所最適性をもたらすことを示す。
グローバルレベルパターンの観点から識別可能な局所パターンを優先的に学習する。
- 参考スコア(独自算出の注目度): 37.27098255569438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the empirical success of self-supervised learning (SSL) heavily relies
on the usage of deep nonlinear models, many theoretical works proposed to
understand SSL still focus on linear ones. In this paper, we study the role of
nonlinearity in the training dynamics of contrastive learning (CL) on one and
two-layer nonlinear networks with homogeneous activation $h(x) = h'(x)x$. We
theoretically demonstrate that (1) the presence of nonlinearity leads to many
local optima even in 1-layer setting, each corresponding to certain patterns
from the data distribution, while with linear activation, only one major
pattern can be learned; and (2) nonlinearity leads to specialized weights into
diverse patterns, a behavior that linear activation is proven not capable of.
These findings suggest that models with lots of parameters can be regarded as a
\emph{brute-force} way to find these local optima induced by nonlinearity, a
possible underlying reason why empirical observations such as the lottery
ticket hypothesis hold. In addition, for 2-layer setting, we also discover
\emph{global modulation}: those local patterns discriminative from the
perspective of global-level patterns are prioritized to learn, further
characterizing the learning process. Simulation verifies our theoretical
findings.
- Abstract(参考訳): 自己教師付き学習(SSL)の実証的な成功は、深い非線形モデルの使用に大きく依存しているが、SSLを理解するための理論的研究の多くは、まだ線形モデルに重点を置いている。
本稿では,一層および二層非線形ネットワーク上でのコントラスト学習(cl)のトレーニングダイナミクスにおける非線形性の役割について検討する。
理論的には,(1)非線形性の存在は,データ分布から特定のパターンに対応する1層設定においても多くの局所的オプティマをもたらし,一方,線形活性化では1つの主要なパターンしか学習できないこと,(2)非線形性は特殊重みを多様なパターンに導くこと,すなわち線形活性化ができないことが証明されている。
これらの結果は, 多数のパラメータを持つモデルが, 非線形性によって誘導される局所的最適性を見出すための<emph{brute-force} 方法とみなすことができることを示唆している。
さらに,2層構成では,グローバルレベルパターンの観点から識別可能な局所パターンを優先的に学習し,学習過程をさらに特徴づける,emph{global modulation} も発見する。
シミュレーションは理論的な結果を検証する。
関連論文リスト
- Self-supervised contrastive learning performs non-linear system identification [2.393499494583001]
自己教師型学習は潜在空間においてシステム識別を行うことができることを示す。
非線形観測モデルの下で線形・切替線形・非線形力学を明らかにするためのフレームワークであるDynCLを提案する。
論文 参考訳(メタデータ) (2024-10-18T17:59:25Z) - Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron [3.069335774032178]
学習を記述するフロー方程式を導出するために,データセット処理アプローチを用いる。
学習ルール(教師付きまたは強化学習,SL/RL)と入力データ分布が知覚者の学習曲線に及ぼす影響を特徴付ける。
このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。
論文 参考訳(メタデータ) (2024-09-05T17:58:28Z) - Understanding Representation Learnability of Nonlinear Self-Supervised
Learning [13.965135660149212]
自己教師付き学習(SSL)は、多くの下流タスクにおいて、データ表現の学習性を実証的に示す。
本論文は非線形SSLモデルの学習結果を精度良く解析した最初の論文である。
論文 参考訳(メタデータ) (2024-01-06T13:23:26Z) - Learning Linearized Models from Nonlinear Systems with Finite Data [1.6026317505839445]
真の基礎となる力学が非線形であるとき、線形化モデルを同定する問題を考察する。
複数のトラジェクトリに基づく決定論的データ取得アルゴリズムを提供し、次に正規化最小二乗アルゴリズムを提案する。
我々の誤差境界は、非線形性による誤差とノイズによる誤差とのトレードオフを示し、任意に小さな誤差で線形化された力学を学習できることを示す。
論文 参考訳(メタデータ) (2023-09-15T22:58:03Z) - Understanding Multi-phase Optimization Dynamics and Rich Nonlinear
Behaviors of ReLU Networks [8.180184504355571]
線形可分データに基づく勾配流による2層ReLUネットワークの学習過程の理論的評価を行う。
学習過程全体から4つの段階が明らかになり,学習の簡略化と複雑化の傾向が示された。
特定の非線形挙動は、初期、サドルプラトー力学、凝縮エスケープ、複雑化に伴う活性化パターンの変化など、理論的に正確に識別することもできる。
論文 参考訳(メタデータ) (2023-05-21T14:08:34Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Hessian Eigenspectra of More Realistic Nonlinear Models [73.31363313577941]
私たちは、非線形モデルの広いファミリーのためのヘッセン固有スペクトルの言語的特徴付けを行います。
我々の分析は、より複雑な機械学習モデルで観察される多くの顕著な特徴の起源を特定するために一歩前進する。
論文 参考訳(メタデータ) (2021-03-02T06:59:52Z) - Understanding self-supervised Learning Dynamics without Contrastive
Pairs [72.1743263777693]
自己監視学習(SSL)に対する対照的アプローチは、同じデータポイントの2つの拡張ビュー間の距離を最小限にすることで表現を学習する。
BYOLとSimSiamは、負のペアなしで素晴らしいパフォーマンスを示す。
単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
論文 参考訳(メタデータ) (2021-02-12T22:57:28Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。