論文の概要: Dissecting Supervised Constrastive Learning
- arxiv url: http://arxiv.org/abs/2102.08817v1
- Date: Wed, 17 Feb 2021 15:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 14:47:00.307660
- Title: Dissecting Supervised Constrastive Learning
- Title(参考訳): 教師付きコンストラッシブラーニングの分別
- Authors: Florian Graf, Christoph D. Hofer, Marc Niethammer, Roland Kwitt
- Abstract要約: 高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。
コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することができることを示す。
- 参考スコア(独自算出の注目度): 24.984074794337157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minimizing cross-entropy over the softmax scores of a linear map composed
with a high-capacity encoder is arguably the most popular choice for training
neural networks on supervised learning tasks. However, recent works show that
one can directly optimize the encoder instead, to obtain equally (or even more)
discriminative representations via a supervised variant of a contrastive
objective. In this work, we address the question whether there are fundamental
differences in the sought-for representation geometry in the output space of
the encoder at minimal loss. Specifically, we prove, under mild assumptions,
that both losses attain their minimum once the representations of each class
collapse to the vertices of a regular simplex, inscribed in a hypersphere. We
provide empirical evidence that this configuration is attained in practice and
that reaching a close-to-optimal state typically indicates good generalization
performance. Yet, the two losses show remarkably different optimization
behavior. The number of iterations required to perfectly fit to data scales
superlinearly with the amount of randomly flipped labels for the supervised
contrastive loss. This is in contrast to the approximately linear scaling
previously reported for networks trained with cross-entropy.
- Abstract(参考訳): 高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。
しかし、近年の研究では、コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することが示されている。
本研究では,最小損失のエンコーダの出力空間において,表現幾何学に基本的な相違が存在するかという問題に対処する。
具体的には、軽微な仮定の下で、各クラスの表現が超球面に刻まれた正則単純体の頂点に崩壊すると、両者の損失が最小値に達することを証明する。
この構成が実際に達成されていることを示す実証的証拠を提示し、至近状態に達することは一般によい一般化性能を示す。
しかし、この2つの損失は、非常に異なる最適化挙動を示している。
データスケールに完全に適合するために必要なイテレーションの数は、教師付きコントラスト損失のためのランダムに反転したラベルの量と並べ替えられます。
これは、クロスエントロピーで訓練されたネットワークで以前に報告されたほぼ線形スケーリングとは対照的です。
関連論文リスト
- More is Better in Modern Machine Learning: when Infinite
Overparameterization is Optimal and Overfitting is Obligatory [13.862093876219381]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:27:41Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Slimmable Networks for Contrastive Self-supervised Learning [67.21528544724546]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせずに、事前訓練された小型モデルを得るための一段階のソリューションを提案する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - A Unified Framework for Implicit Sinkhorn Differentiation [58.56866763433335]
暗黙の微分によってシンクホーン層の解析勾配を求めるアルゴリズムを提案する。
特にGPUメモリなどのリソースが不足している場合には,計算効率が向上する。
論文 参考訳(メタデータ) (2022-05-13T14:45:31Z) - The Devil is in the Margin: Margin-based Label Smoothing for Network
Calibration [21.63888208442176]
ディープニューラルネットワークの優位な性能にもかかわらず、最近の研究では、それらが十分に校正されていないことが示されている。
現状のキャリブレーション損失に対する統一的制約最適化の視点を提供する。
我々は不等式制約に基づく単純で柔軟な一般化を提案し、ロジット距離に制御可能なマージンを課す。
論文 参考訳(メタデータ) (2021-11-30T14:21:47Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z) - Unique Properties of Flat Minima in Deep Networks [44.21198403467404]
2次損失で訓練された線形ニューラルネットワークにおける平坦なミニマを特徴付ける。
実験により、これらの性質は実際に訓練された線形モデルと非線形モデルの両方の特徴であることが示されている。
論文 参考訳(メタデータ) (2020-02-11T22:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。