論文の概要: Guillotine Regularization: Improving Deep Networks Generalization by
Removing their Head
- arxiv url: http://arxiv.org/abs/2206.13378v1
- Date: Mon, 27 Jun 2022 15:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:55:12.408117
- Title: Guillotine Regularization: Improving Deep Networks Generalization by
Removing their Head
- Title(参考訳): ギロチン規則化: 頭を取り除きディープネットワークの一般化を改善する
- Authors: Florian Bordes, Randall Balestriero, Quentin Garrido, Adrien Bardes,
Pascal Vincent
- Abstract要約: Guillotine Regularization (GR) は汎用的な正規化形式であり、転送学習シナリオにおける一般化性能の向上にも利用されている。
この手法がSSLのパフォーマンスに欠かせないのは,2つの理由からである。
- 参考スコア(独自算出の注目度): 15.009986848506486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One unexpected technique that emerged in recent years consists in training a
Deep Network (DN) with a Self-Supervised Learning (SSL) method, and using this
network on downstream tasks but with its last few layers entirely removed. This
usually skimmed-over trick is actually critical for SSL methods to display
competitive performances. For example, on ImageNet classification, more than 30
points of percentage can be gained that way. This is a little vexing, as one
would hope that the network layer at which invariance is explicitly enforced by
the SSL criterion during training (the last layer) should be the one to use for
best generalization performance downstream. But it seems not to be, and this
study sheds some light on why. This trick, which we name Guillotine
Regularization (GR), is in fact a generically applicable form of regularization
that has also been used to improve generalization performance in transfer
learning scenarios. In this work, through theory and experiments, we formalize
GR and identify the underlying reasons behind its success in SSL methods. Our
study shows that the use of this trick is essential to SSL performance for two
main reasons: (i) improper data-augmentations to define the positive pairs used
during training, and/or (ii) suboptimal selection of the hyper-parameters of
the SSL loss.
- Abstract(参考訳): 近年の予期せぬテクニックの1つは、Deep Network(DN)を自己監視学習(SSL)メソッドでトレーニングし、このネットワークを下流タスクで使用するが、最後の数層を完全に削除したことである。
通常このスキミングオーバーのトリックは、sslメソッドが競合性能を示すために非常に重要です。
例えば、imagenetの分類では、30ポイント以上のパーセンテージを得ることができる。
トレーニング中にSSLの基準(最後のレイヤ)によって明確に不変性が強制されるネットワーク層が、下流で最高の一般化パフォーマンスのために使用されるべきだと期待するからです。
しかし、そうではないように思える。この研究は、その理由に光を当てている。
このトリックは、Guillotine Regularization (GR) と呼ばれ、実際には、転送学習シナリオにおける一般化性能を改善するためにも使われている一般的な正規化形式である。
本研究では、理論と実験を通じてGRを形式化し、SSLメソッドの成功の背景にある理由を特定する。
我々の研究によると、SSLのパフォーマンスには2つの主な理由がある。
(i)訓練中の正の対を定義するための不適切なデータ提供
(II)SSL損失のハイパーパラメータの最適部分選択。
関連論文リスト
- Llama SLayer 8B: Shallow Layers Hold the Key to Knowledge Injection [73.06596715100859]
知識注入のための最適層範囲の探索における各層の重要性について検討する。
本研究では,浅層を選択的に強化し,有効でない深層を刈り取るための事前学習戦略であるS戦略を提案する。
この戦略に基づき,Llama Slayer-8BとLlama Slayer-8B-Instructを導入する。
論文 参考訳(メタデータ) (2024-10-03T09:28:59Z) - Investigating the Benefits of Projection Head for Representation Learning [11.20245728716827]
高品質な表現を得るための効果的なテクニックは、トレーニング中にエンコーダの上にプロジェクションヘッドを追加し、それを破棄し、プリプロジェクション表現を使用することである。
プロジェクション前表現は損失関数によって直接最適化されていない。
トレーニングアルゴリズムの暗黙のバイアスは、階層的にプログレッシブな機能の重み付けにつながり、レイヤーに深く入り込むにつれて、機能がますます不平等になることを示している。
論文 参考訳(メタデータ) (2024-03-18T00:48:58Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - A surprisingly simple technique to control the pretraining bias for
better transfer: Expand or Narrow your representation [22.866948071297767]
Self-Supervised Learning (SSL)モデルは、表現を学ぶためのプリテキストタスクに依存している。
背骨の最も最後のブロックのサイズだけを変えることで、単に寸法を変えるだけで、トレーニング前のバイアスを軽減するのに非常に効果的なテクニックであることが示されています。
論文 参考訳(メタデータ) (2023-04-11T17:24:29Z) - Understanding and Improving the Role of Projection Head in
Self-Supervised Learning [77.59320917894043]
自己教師付き学習(SSL)は、人間のラベル付きデータアノテーションにアクセスせずに有用な特徴表現を作成することを目的としている。
現在の対照的な学習アプローチは、InfoNCEの目的を最適化するために、あるバックボーンネットワークの端にパラメータ化されたプロジェクションヘッドを付加する。
学習可能なプロジェクションヘッドが、トレーニング後にそれを破棄する場合、なぜ必要となるのか?
論文 参考訳(メタデータ) (2022-12-22T05:42:54Z) - Effective Self-supervised Pre-training on Low-compute Networks without
Distillation [6.530011859253459]
報告された自己教師型学習のパフォーマンスは、標準的な教師付き事前学習よりも大きなマージンで遅れている。
以前の作業のほとんどは、低スループットネットワークのキャパシティボトルネックによるパフォーマンスの低下を理由としている。
我々は、現実的な制約の原因となる有害要因と、それらが自己監督型低コンプット設定に固有のものであるかどうかについて、より詳しく検討する。
論文 参考訳(メタデータ) (2022-10-06T10:38:07Z) - TSG: Target-Selective Gradient Backprop for Probing CNN Visual Saliency [72.9106103283475]
我々は、畳み込みニューラルネットワークを解釈するために視覚的サリエンシ、すなわち視覚的説明について研究する。
これらの観測に触発されて、我々はTSG(Target-Selective Gradient)バックプロップと呼ばれる新しいビジュアル・サリエンシ・フレームワークを提案する。
提案したTSGはTSG-ConvとTSG-FCの2つのコンポーネントから構成され、それぞれ畳み込み層と完全連結層の勾配を補正する。
論文 参考訳(メタデータ) (2021-10-11T12:00:20Z) - How Self-Supervised Learning Can be Used for Fine-Grained Head Pose
Estimation? [2.0625936401496237]
SSLはどのようにしてヘッドポーズ推定に使えるのか?
SSLプリテキストタスクとしてジグソーパズリングとローテーションの修正版が使用されている。
HTML メソッドによる誤り率の 11% を SL と比較した。
論文 参考訳(メタデータ) (2021-08-10T19:34:45Z) - Semantic Drift Compensation for Class-Incremental Learning [48.749630494026086]
ディープネットワークのクラス増分学習は、分類対象のクラス数を順次増加させる。
本研究では,特徴のセマンティックドリフト(セマンティックドリフト)と呼ばれるドリフトを推定し,その補正を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T13:31:19Z) - TAFSSL: Task-Adaptive Feature Sub-Space Learning for few-shot
classification [50.358839666165764]
本稿では,タスク適応機能サブスペース学習(TAFSSL)により,Few-Shot Learningシナリオの性能を大幅に向上させることができることを示す。
具体的には、挑戦的な miniImageNet と tieredImageNet ベンチマークにおいて、TAFSSL はトランスダクティブおよび半教師付き FSL 設定の両方で現在の状態を改善することができることを示しています。
論文 参考訳(メタデータ) (2020-03-14T16:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。