論文の概要: Understanding Self-supervised Learning with Dual Deep Networks
- arxiv url: http://arxiv.org/abs/2010.00578v6
- Date: Mon, 15 Feb 2021 04:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:10:33.356663
- Title: Understanding Self-supervised Learning with Dual Deep Networks
- Title(参考訳): デュアルディープネットワークによる自己教師あり学習の理解
- Authors: Yuandong Tian and Lantao Yu and Xinlei Chen and Surya Ganguli
- Abstract要約: 本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
- 参考スコア(独自算出の注目度): 74.92916579635336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel theoretical framework to understand contrastive
self-supervised learning (SSL) methods that employ dual pairs of deep ReLU
networks (e.g., SimCLR). First, we prove that in each SGD update of SimCLR with
various loss functions, including simple contrastive loss, soft Triplet loss
and InfoNCE loss, the weights at each layer are updated by a \emph{covariance
operator} that specifically amplifies initial random selectivities that vary
across data samples but survive averages over data augmentations. To further
study what role the covariance operator plays and which features are learned in
such a process, we model data generation and augmentation processes through a
\emph{hierarchical latent tree model} (HLTM) and prove that the hidden neurons
of deep ReLU networks can learn the latent variables in HLTM, despite the fact
that the network receives \emph{no direct supervision} from these unobserved
latent variables. This leads to a provable emergence of hierarchical features
through the amplification of initially random selectivities through contrastive
SSL. Extensive numerical studies justify our theoretical findings. Code is
released in https://github.com/facebookresearch/luckmatters/tree/master/ssl.
- Abstract(参考訳): 深層ReLUネットワーク(SimCLRなど)の2対のペアを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい理論的枠組みを提案する。
まず、単純なコントラスト損失、ソフトトリプルト損失、InfoNCE損失などの様々な損失関数を持つSimCLRのSGD更新において、各レイヤの重み付けは、データサンプルによって異なるがデータ拡張よりも平均に耐える初期ランダム選択性を具体的に増幅する \emph{covariance operator} によって更新されることを示す。
このようなプロセスにおいて、共分散演算子がどのような役割を担っているのか、どの特徴を学習するかを更に研究するために、データ生成および増大過程をHLTM(enmph{hierarchical latent tree model})を通してモデル化し、深部ReLUネットワークの隠されたニューロンがHLTMの潜伏変数を学習できることを証明した。
これは、対照的なSSLによる初期ランダムな選択の増幅を通じて、階層的特徴の証明可能な出現につながる。
広範な数値研究は我々の理論的な発見を正当化する。
コードはhttps://github.com/facebookresearch/luckmatters/tree/master/sslでリリースされる。
関連論文リスト
- Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Discriminability-enforcing loss to improve representation learning [20.4701676109641]
我々は、個々の高次特徴のエントロピーを最小化するために、ジニ不純物にインスパイアされた新しい損失項を導入する。
我々のGini損失は高い差別的特徴をもたらすが、高レベルの特徴の分布がクラスの分布と一致していることを保証するものではない。
実験結果から,新たな損失項をトレーニング目標に組み込むことで,クロスエントロピー単独でトレーニングしたモデルよりも一貫して優れた結果が得られた。
論文 参考訳(メタデータ) (2022-02-14T22:31:37Z) - Information Bottleneck-Based Hebbian Learning Rule Naturally Ties
Working Memory and Synaptic Updates [0.0]
私たちは、バックプロパゲーションとその関連する問題を完全に回避する、別のアプローチを取っています。
深層学習における最近の研究は、情報ボトルネック(IB)を介してネットワークの各層を個別に訓練することを提案した。
この変調信号は、貯水池のような動作記憶を持つ補助回路で学習可能であることを示す。
論文 参考訳(メタデータ) (2021-11-24T17:38:32Z) - Biologically Plausible Training Mechanisms for Self-Supervised Learning
in Deep Networks [14.685237010856953]
我々は,深層ネットワークにおける自己教師付き学習(SSL)のための生物学的に妥当なトレーニング機構を開発する。
バックパゲーションの2つの選択肢のうちの1つを用いて学習を行うことができることを示す。
論文 参考訳(メタデータ) (2021-09-30T12:56:57Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Enabling Continual Learning with Differentiable Hebbian Plasticity [18.12749708143404]
連続学習は、獲得した知識を保護しながら、新しいタスクや知識を順次学習する問題である。
破滅的な忘れ物は、そのような学習プロセスを実行するニューラルネットワークにとって、大きな課題となる。
微分可能なヘビアン塑性からなるヘビアンコンソリデーションモデルを提案する。
論文 参考訳(メタデータ) (2020-06-30T06:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。