論文の概要: Guillotine Regularization: Why removing layers is needed to improve
generalization in Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2206.13378v2
- Date: Fri, 9 Jun 2023 14:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 18:25:07.793224
- Title: Guillotine Regularization: Why removing layers is needed to improve
generalization in Self-Supervised Learning
- Title(参考訳): ギロチン正則化:自己教師付き学習における一般化を改善するためにレイヤーの除去がなぜ必要か
- Authors: Florian Bordes, Randall Balestriero, Quentin Garrido, Adrien Bardes,
Pascal Vincent
- Abstract要約: Guillotine Regularization (GR) は、転送学習シナリオにおける一般化性能の向上に使用される汎用的な手法である。
その成功の背後にある根本的な理由を特定し、トレーニング設定やデータ、ダウンストリームタスクによって最適なレイヤが大幅に変化する可能性があることを示す。
- 参考スコア(独自算出の注目度): 15.009986848506486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One unexpected technique that emerged in recent years consists in training a
Deep Network (DN) with a Self-Supervised Learning (SSL) method, and using this
network on downstream tasks but with its last few projector layers entirely
removed. This trick of throwing away the projector is actually critical for SSL
methods to display competitive performances on ImageNet for which more than 30
percentage points can be gained that way. This is a little vexing, as one would
hope that the network layer at which invariance is explicitly enforced by the
SSL criterion during training (the last projector layer) should be the one to
use for best generalization performance downstream. But it seems not to be, and
this study sheds some light on why. This trick, which we name Guillotine
Regularization (GR), is in fact a generically applicable method that has been
used to improve generalization performance in transfer learning scenarios. In
this work, we identify the underlying reasons behind its success and show that
the optimal layer to use might change significantly depending on the training
setup, the data or the downstream task. Lastly, we give some insights on how to
reduce the need for a projector in SSL by aligning the pretext SSL task and the
downstream task.
- Abstract(参考訳): 近年の予期せぬテクニックの1つは、Deep Network(DN)を自己監視学習(SSL)メソッドでトレーニングすることと、このネットワークを下流タスクで使用することと、最後のプロジェクタ層を完全に削除することである。
プロジェクタを捨てるこのトリックは、SSLメソッドがImageNet上で、30パーセント以上のポイントを獲得可能な競合パフォーマンスを表示するために、実際には非常に重要です。
トレーニング中にSSLの基準(最後のプロジェクタ層)によって明確に不変性が強制されるネットワーク層が、下流で最高の一般化パフォーマンスのために使用されるべきだと期待するからです。
しかし、そうではないように思える。この研究は、その理由に光を当てている。
この手法はGuillotine Regularization (GR) と呼ばれ、転送学習シナリオにおける一般化性能の向上に利用されてきた汎用的な手法である。
本研究は,その成功の背景にある要因を特定し,その利用に必要な最適な層が,トレーニングのセットアップやデータ,あるいは下流タスクによって大きく変化する可能性を示す。
最後に、プリテキストSSLタスクと下流タスクを調整することで、SSLにおけるプロジェクタの必要性を減らす方法について、いくつかの洞察を提供する。
関連論文リスト
- Llama SLayer 8B: Shallow Layers Hold the Key to Knowledge Injection [73.06596715100859]
知識注入のための最適層範囲の探索における各層の重要性について検討する。
本研究では,浅層を選択的に強化し,有効でない深層を刈り取るための事前学習戦略であるS戦略を提案する。
この戦略に基づき,Llama Slayer-8BとLlama Slayer-8B-Instructを導入する。
論文 参考訳(メタデータ) (2024-10-03T09:28:59Z) - Investigating the Benefits of Projection Head for Representation Learning [11.20245728716827]
高品質な表現を得るための効果的なテクニックは、トレーニング中にエンコーダの上にプロジェクションヘッドを追加し、それを破棄し、プリプロジェクション表現を使用することである。
プロジェクション前表現は損失関数によって直接最適化されていない。
トレーニングアルゴリズムの暗黙のバイアスは、階層的にプログレッシブな機能の重み付けにつながり、レイヤーに深く入り込むにつれて、機能がますます不平等になることを示している。
論文 参考訳(メタデータ) (2024-03-18T00:48:58Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - A surprisingly simple technique to control the pretraining bias for
better transfer: Expand or Narrow your representation [22.866948071297767]
Self-Supervised Learning (SSL)モデルは、表現を学ぶためのプリテキストタスクに依存している。
背骨の最も最後のブロックのサイズだけを変えることで、単に寸法を変えるだけで、トレーニング前のバイアスを軽減するのに非常に効果的なテクニックであることが示されています。
論文 参考訳(メタデータ) (2023-04-11T17:24:29Z) - Understanding and Improving the Role of Projection Head in
Self-Supervised Learning [77.59320917894043]
自己教師付き学習(SSL)は、人間のラベル付きデータアノテーションにアクセスせずに有用な特徴表現を作成することを目的としている。
現在の対照的な学習アプローチは、InfoNCEの目的を最適化するために、あるバックボーンネットワークの端にパラメータ化されたプロジェクションヘッドを付加する。
学習可能なプロジェクションヘッドが、トレーニング後にそれを破棄する場合、なぜ必要となるのか?
論文 参考訳(メタデータ) (2022-12-22T05:42:54Z) - Effective Self-supervised Pre-training on Low-compute Networks without
Distillation [6.530011859253459]
報告された自己教師型学習のパフォーマンスは、標準的な教師付き事前学習よりも大きなマージンで遅れている。
以前の作業のほとんどは、低スループットネットワークのキャパシティボトルネックによるパフォーマンスの低下を理由としている。
我々は、現実的な制約の原因となる有害要因と、それらが自己監督型低コンプット設定に固有のものであるかどうかについて、より詳しく検討する。
論文 参考訳(メタデータ) (2022-10-06T10:38:07Z) - TSG: Target-Selective Gradient Backprop for Probing CNN Visual Saliency [72.9106103283475]
我々は、畳み込みニューラルネットワークを解釈するために視覚的サリエンシ、すなわち視覚的説明について研究する。
これらの観測に触発されて、我々はTSG(Target-Selective Gradient)バックプロップと呼ばれる新しいビジュアル・サリエンシ・フレームワークを提案する。
提案したTSGはTSG-ConvとTSG-FCの2つのコンポーネントから構成され、それぞれ畳み込み層と完全連結層の勾配を補正する。
論文 参考訳(メタデータ) (2021-10-11T12:00:20Z) - How Self-Supervised Learning Can be Used for Fine-Grained Head Pose
Estimation? [2.0625936401496237]
SSLはどのようにしてヘッドポーズ推定に使えるのか?
SSLプリテキストタスクとしてジグソーパズリングとローテーションの修正版が使用されている。
HTML メソッドによる誤り率の 11% を SL と比較した。
論文 参考訳(メタデータ) (2021-08-10T19:34:45Z) - Semantic Drift Compensation for Class-Incremental Learning [48.749630494026086]
ディープネットワークのクラス増分学習は、分類対象のクラス数を順次増加させる。
本研究では,特徴のセマンティックドリフト(セマンティックドリフト)と呼ばれるドリフトを推定し,その補正を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T13:31:19Z) - TAFSSL: Task-Adaptive Feature Sub-Space Learning for few-shot
classification [50.358839666165764]
本稿では,タスク適応機能サブスペース学習(TAFSSL)により,Few-Shot Learningシナリオの性能を大幅に向上させることができることを示す。
具体的には、挑戦的な miniImageNet と tieredImageNet ベンチマークにおいて、TAFSSL はトランスダクティブおよび半教師付き FSL 設定の両方で現在の状態を改善することができることを示しています。
論文 参考訳(メタデータ) (2020-03-14T16:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。