論文の概要: Dissecting Supervised Constrastive Learning
- arxiv url: http://arxiv.org/abs/2102.08817v1
- Date: Wed, 17 Feb 2021 15:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:47:00.307660
- Title: Dissecting Supervised Constrastive Learning
- Title(参考訳): 教師付きコンストラッシブラーニングの分別
- Authors: Florian Graf, Christoph D. Hofer, Marc Niethammer, Roland Kwitt
- Abstract要約: 高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。
コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することができることを示す。
- 参考スコア(独自算出の注目度): 24.984074794337157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimizing cross-entropy over the softmax scores of a linear map composed
with a high-capacity encoder is arguably the most popular choice for training
neural networks on supervised learning tasks. However, recent works show that
one can directly optimize the encoder instead, to obtain equally (or even more)
discriminative representations via a supervised variant of a contrastive
objective. In this work, we address the question whether there are fundamental
differences in the sought-for representation geometry in the output space of
the encoder at minimal loss. Specifically, we prove, under mild assumptions,
that both losses attain their minimum once the representations of each class
collapse to the vertices of a regular simplex, inscribed in a hypersphere. We
provide empirical evidence that this configuration is attained in practice and
that reaching a close-to-optimal state typically indicates good generalization
performance. Yet, the two losses show remarkably different optimization
behavior. The number of iterations required to perfectly fit to data scales
superlinearly with the amount of randomly flipped labels for the supervised
contrastive loss. This is in contrast to the approximately linear scaling
previously reported for networks trained with cross-entropy.
- Abstract(参考訳): 高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。
しかし、近年の研究では、コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することが示されている。
本研究では,最小損失のエンコーダの出力空間において,表現幾何学に基本的な相違が存在するかという問題に対処する。
具体的には、軽微な仮定の下で、各クラスの表現が超球面に刻まれた正則単純体の頂点に崩壊すると、両者の損失が最小値に達することを証明する。
この構成が実際に達成されていることを示す実証的証拠を提示し、至近状態に達することは一般によい一般化性能を示す。
しかし、この2つの損失は、非常に異なる最適化挙動を示している。
データスケールに完全に適合するために必要なイテレーションの数は、教師付きコントラスト損失のためのランダムに反転したラベルの量と並べ替えられます。
これは、クロスエントロピーで訓練されたネットワークで以前に報告されたほぼ線形スケーリングとは対照的です。
関連論文リスト
- Deep Loss Convexification for Learning Iterative Models [11.36644967267829]
点雲登録のための反復的最近点(ICP)のような反復的手法は、しばしば悪い局所最適性に悩まされる。
我々は,各地真実の周囲に凸景観を形成する学習を提案する。
論文 参考訳(メタデータ) (2024-11-16T01:13:04Z) - A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:27:41Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - A Unified Framework for Implicit Sinkhorn Differentiation [58.56866763433335]
暗黙の微分によってシンクホーン層の解析勾配を求めるアルゴリズムを提案する。
特にGPUメモリなどのリソースが不足している場合には,計算効率が向上する。
論文 参考訳(メタデータ) (2022-05-13T14:45:31Z) - The Devil is in the Margin: Margin-based Label Smoothing for Network
Calibration [21.63888208442176]
ディープニューラルネットワークの優位な性能にもかかわらず、最近の研究では、それらが十分に校正されていないことが示されている。
現状のキャリブレーション損失に対する統一的制約最適化の視点を提供する。
我々は不等式制約に基づく単純で柔軟な一般化を提案し、ロジット距離に制御可能なマージンを課す。
論文 参考訳(メタデータ) (2021-11-30T14:21:47Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z) - Unique Properties of Flat Minima in Deep Networks [44.21198403467404]
2次損失で訓練された線形ニューラルネットワークにおける平坦なミニマを特徴付ける。
実験により、これらの性質は実際に訓練された線形モデルと非線形モデルの両方の特徴であることが示されている。
論文 参考訳(メタデータ) (2020-02-11T22:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。