論文の概要: A surprisingly simple technique to control the pretraining bias for
better transfer: Expand or Narrow your representation
- arxiv url: http://arxiv.org/abs/2304.05369v1
- Date: Tue, 11 Apr 2023 17:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 13:59:38.839759
- Title: A surprisingly simple technique to control the pretraining bias for
better transfer: Expand or Narrow your representation
- Title(参考訳): より良い転送のために事前学習バイアスを制御する驚くほど単純なテクニック:あなたの表現を拡大または狭める
- Authors: Florian Bordes, Samuel Lavoie, Randall Balestriero, Nicolas Ballas,
Pascal Vincent
- Abstract要約: Self-Supervised Learning (SSL)モデルは、表現を学ぶためのプリテキストタスクに依存している。
背骨の最も最後のブロックのサイズだけを変えることで、単に寸法を変えるだけで、トレーニング前のバイアスを軽減するのに非常に効果的なテクニックであることが示されています。
- 参考スコア(独自算出の注目度): 22.866948071297767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) models rely on a pretext task to learn
representations. Because this pretext task differs from the downstream tasks
used to evaluate the performance of these models, there is an inherent
misalignment or pretraining bias. A commonly used trick in SSL, shown to make
deep networks more robust to such bias, is the addition of a small projector
(usually a 2 or 3 layer multi-layer perceptron) on top of a backbone network
during training. In contrast to previous work that studied the impact of the
projector architecture, we here focus on a simpler, yet overlooked lever to
control the information in the backbone representation. We show that merely
changing its dimensionality -- by changing only the size of the backbone's very
last block -- is a remarkably effective technique to mitigate the pretraining
bias. It significantly improves downstream transfer performance for both
Self-Supervised and Supervised pretrained models.
- Abstract(参考訳): Self-Supervised Learning (SSL)モデルは、表現を学ぶためのプリテキストタスクに依存している。
このプリテキストタスクは、これらのモデルのパフォーマンスを評価するのに使用される下流タスクとは異なるため、固有の不一致や事前学習バイアスがある。
SSLでよく使われるトリックは、トレーニング中にバックボーンネットワークの上に小さなプロジェクタ(通常は2層か3層の多層パーセプトロン)を追加することである。
プロジェクタアーキテクチャの影響を研究する以前の研究とは対照的に、バックボーン表現の情報を制御するため、よりシンプルで見過ごされがちなレバーに焦点を当てる。
バックボーンの最後のブロックのサイズだけを変更することで、単に寸法を変えるだけで、トレーニング前のバイアスを軽減できる、非常に効果的なテクニックであることが分かっています。
自己監督型と監視型両方の事前訓練型モデルの下流転送性能を著しく向上させる。
関連論文リスト
- An Empirical Analysis of Forgetting in Pre-trained Models with Incremental Low-Rank Updates [11.90029443742706]
本研究は,ローランド適応(LoRA)のランクが,事前学習の基礎課題の忘れ方,可塑性およびその後の課題の忘れ方に及ぼす影響について検討する。
また、この方法で微調整された視覚トランスフォーマーは、残余のネットワークでは観測できないような、ある種の文脈的「忘れ」を示す。
論文 参考訳(メタデータ) (2024-05-28T11:29:25Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Investigating the Benefits of Projection Head for Representation Learning [11.20245728716827]
高品質な表現を得るための効果的なテクニックは、トレーニング中にエンコーダの上にプロジェクションヘッドを追加し、それを破棄し、プリプロジェクション表現を使用することである。
プロジェクション前表現は損失関数によって直接最適化されていない。
トレーニングアルゴリズムの暗黙のバイアスは、階層的にプログレッシブな機能の重み付けにつながり、レイヤーに深く入り込むにつれて、機能がますます不平等になることを示している。
論文 参考訳(メタデータ) (2024-03-18T00:48:58Z) - Fine-tuning can cripple your foundation model; preserving features may be the solution [87.35911633187204]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。
我々は、下流タスクに関連する新しい概念を学習しながら、モデルが事前学習した知識を保存できる「textitLDIFS$」という新しい微調整手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T11:49:51Z) - Improved Visual Fine-tuning with Natural Language Supervision [36.250244364023665]
視覚的事前学習モデルの微調整は、大規模事前学習データからの意味情報を活用することができる。
術前訓練した背骨における破折性忘れの問題は、微調整のために広く研究されている。
固定テキスト分類器から得られた参照分布を導入し,学習した視覚分類器の正規化を支援する。
論文 参考訳(メタデータ) (2023-04-04T03:08:02Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Guillotine Regularization: Why removing layers is needed to improve
generalization in Self-Supervised Learning [15.009986848506486]
Guillotine Regularization (GR) は、転送学習シナリオにおける一般化性能の向上に使用される汎用的な手法である。
その成功の背後にある根本的な理由を特定し、トレーニング設定やデータ、ダウンストリームタスクによって最適なレイヤが大幅に変化する可能性があることを示す。
論文 参考訳(メタデータ) (2022-06-27T15:37:54Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。