論文の概要: Predictor networks and stop-grads provide implicit variance
regularization in BYOL/SimSiam
- arxiv url: http://arxiv.org/abs/2212.04858v1
- Date: Fri, 9 Dec 2022 13:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:02:47.062575
- Title: Predictor networks and stop-grads provide implicit variance
regularization in BYOL/SimSiam
- Title(参考訳): byol/simsiamにおける予測ネットワークとストップグレードによる暗黙的分散正規化
- Authors: Manu Srinath Halvagal, Axel Laborieux, Friedemann Zenke
- Abstract要約: 自己教師付き学習は、同一入力の強化バージョンのペアに不変なネットワークをトレーニングすることで、未学習のデータから有用な表現を学習する。
非競合的手法は、ネットワーク出力の共分散行列を直接正規化するか、あるいは非対称損失アーキテクチャを通して、崩壊を避ける。
線形ネットワークにおける表現学習力学の解析式を導出する。
- 参考スコア(独自算出の注目度): 4.468952886990851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) learns useful representations from unlabelled
data by training networks to be invariant to pairs of augmented versions of the
same input. Non-contrastive methods avoid collapse either by directly
regularizing the covariance matrix of network outputs or through asymmetric
loss architectures, two seemingly unrelated approaches. Here, by building on
DirectPred, we lay out a theoretical framework that reconciles these two views.
We derive analytical expressions for the representational learning dynamics in
linear networks. By expressing them in the eigenspace of the embedding
covariance matrix, where the solutions decouple, we reveal the mechanism and
conditions that provide implicit variance regularization. These insights allow
us to formulate a new isotropic loss function that equalizes eigenvalue
contribution and renders learning more robust. Finally, we show empirically
that our findings translate to nonlinear networks trained on CIFAR-10 and
STL-10.
- Abstract(参考訳): 自己教師付き学習(ssl)は、同じ入力の拡張バージョンに不変なネットワークをトレーニングすることで、ラベルのないデータから有用な表現を学習する。
非競合的手法は、ネットワーク出力の共分散行列を直接正規化するか、あるいは非対称な損失アーキテクチャによって崩壊を避ける。
ここでは、DirectPred上に構築することで、これらの2つの見解を和解する理論的な枠組みを構築します。
線形ネットワークにおける表現学習ダイナミクスの解析式を導出する。
解が分離する埋め込み共分散行列の固有空間でそれらを表現することにより、暗黙的分散正規化をもたらすメカニズムと条件を明らかにする。
これらの知見は、固有値の寄与を等しくし、学習をより堅牢にする新しい等方的損失関数を定式化することができる。
最後に,cifar-10 と stl-10 で訓練された非線形ネットワークを用いて実験を行った。
関連論文リスト
- Preventing Collapse in Contrastive Learning with Orthonormal Prototypes (CLOP) [0.0]
CLOPは、クラス埋め込み間の線形部分空間の形成を促進することにより、神経崩壊を防止するために設計された、新しい半教師付き損失関数である。
CLOPは性能を向上し,学習速度やバッチサイズにまたがる安定性が向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T15:48:16Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Regularizing with Pseudo-Negatives for Continual Self-Supervised Learning [62.40718385934608]
効果的な継続型自己教師型学習(CSSL)のためのPNR(Pseudo-Negative Regularization)フレームワークを提案する。
我々のPNRは,新たに学習した表現が過去の学習と矛盾しないように,モデルに基づく拡張によって得られた擬陰性情報を活用する。
論文 参考訳(メタデータ) (2023-06-08T10:59:35Z) - Stochastic Modified Equations and Dynamics of Dropout Algorithm [4.811269936680572]
ドロップアウトはニューラルネットワークのトレーニングにおいて広く利用されている正規化技術である。
その基盤となるメカニズムと優れた能力を達成するための影響は、いまだに理解されていない。
論文 参考訳(メタデータ) (2023-05-25T08:42:25Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - Leveraging Heteroscedastic Uncertainty in Learning Complex Spectral
Mapping for Single-channel Speech Enhancement [20.823177372464414]
ほとんどの音声強調(SE)モデルは、ポイント推定を学習し、学習過程における不確実性推定を利用しない。
本研究では,多変量ガウス陰性ログ類似度 (NLL) を最小化することにより,SE性能を余分なコストで向上させることにより,ヘテロスセダスティック不確実性をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-11-16T02:29:05Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Error Bounds of the Invariant Statistics in Machine Learning of Ergodic
It\^o Diffusions [8.627408356707525]
エルゴード的伊藤拡散の機械学習の理論的基盤について検討する。
ドリフト係数と拡散係数の学習における誤差に対する1点および2点不変統計量の誤差の線形依存性を導出する。
論文 参考訳(メタデータ) (2021-05-21T02:55:59Z) - Understanding self-supervised Learning Dynamics without Contrastive
Pairs [72.1743263777693]
自己監視学習(SSL)に対する対照的アプローチは、同じデータポイントの2つの拡張ビュー間の距離を最小限にすることで表現を学習する。
BYOLとSimSiamは、負のペアなしで素晴らしいパフォーマンスを示す。
単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
論文 参考訳(メタデータ) (2021-02-12T22:57:28Z) - Semi-Supervised Empirical Risk Minimization: Using unlabeled data to
improve prediction [4.860671253873579]
本稿では,経験的リスク最小化(Empirical Risk Minimization,ERM)学習プロセスの半教師付き学習(SSL)変種を設計するためにラベルのないデータを使用する一般的な手法を提案する。
我々は、予測性能の向上におけるSSLアプローチの有効性を分析した。
論文 参考訳(メタデータ) (2020-09-01T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。