論文の概要: Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via
Feature Distillation
- arxiv url: http://arxiv.org/abs/2205.14141v1
- Date: Fri, 27 May 2022 17:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 13:53:32.123822
- Title: Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via
Feature Distillation
- Title(参考訳): 機能蒸留による微調整における対比学習ライバルのマスキング画像モデリング
- Authors: Yixuan Wei and Han Hu and Zhenda Xie and Zheng Zhang and Yue Cao and
Jianmin Bao and Dong Chen and Baining Guo
- Abstract要約: Masked Image Modeling (MIM)は、非常に優れた微調整性能を持つ表現を学習する。
本稿では, 簡単な後処理により, 事前学習手法の微調整性能を著しく向上できることを示す。
- 参考スコア(独自算出の注目度): 42.37533586611174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked image modeling (MIM) learns representations with remarkably good
fine-tuning performances, overshadowing previous prevalent pre-training
approaches such as image classification, instance contrastive learning, and
image-text alignment. In this paper, we show that the inferior fine-tuning
performance of these pre-training approaches can be significantly improved by a
simple post-processing in the form of feature distillation (FD). The feature
distillation converts the old representations to new representations that have
a few desirable properties just like those representations produced by MIM.
These properties, which we aggregately refer to as optimization friendliness,
are identified and analyzed by a set of attention- and optimization-related
diagnosis tools. With these properties, the new representations show strong
fine-tuning performance. Specifically, the contrastive self-supervised learning
methods are made as competitive in fine-tuning as the state-of-the-art masked
image modeling (MIM) algorithms. The CLIP models' fine-tuning performance is
also significantly improved, with a CLIP ViT-L model reaching 89.0% top-1
accuracy on ImageNet-1K classification. More importantly, our work provides a
way for the future research to focus more effort on the generality and
scalability of the learnt representations without being pre-occupied with
optimization friendliness since it can be enhanced rather easily. The code will
be available at https://github.com/SwinTransformer/Feature-Distillation.
- Abstract(参考訳): Masked Image Modeling (MIM) は、画像分類、インスタンスコントラスト学習、画像テキストアライメントといった、従来主流だった事前学習アプローチを覆い隠して、非常に優れた微調整性能を持つ表現を学習する。
本稿では,これらのプリトレーニングアプローチの微調整性能を,特徴蒸留(fd)という単純な後処理によって著しく向上させることができることを示す。
特徴蒸留は、古い表現をMIMが生成した表現と同様に、いくつかの望ましい性質を持つ新しい表現に変換する。
これらの特性は最適化フレンドラインとして総称され,注意および最適化関連診断ツール群によって同定・分析される。
これらの特性により、新しい表現は強い微調整性能を示す。
特に、対照的な自己教師付き学習法は、最先端のマスク画像モデリング(mim)アルゴリズムのように微調整において競争力がある。
CLIPモデルの微調整性能も大幅に改善され、CLIP ViT-LモデルはImageNet-1K分類で89.0%の精度でトップ1に到達した。
さらに重要なことは、我々の研究は、より簡単に拡張できるため、最適化フレンドリさに慣れることなく、学習した表現の汎用性とスケーラビリティにもっと注力する手段を提供する。
コードはhttps://github.com/swintransformer/feature-distillationで入手できる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Fine-tuning a Multiple Instance Learning Feature Extractor with Masked
Context Modelling and Knowledge Distillation [0.21756081703275998]
我々は,知識蒸留を用いたコンテキストモデリングを用いて特徴抽出モデルを微調整することにより,下流MIL分類を向上させることを提案する。
提案したタスクの1つのエポックは、MILシナリオで使用する場合の特徴抽出モデルの下流性能を向上させるのに十分であり、計算のごく一部を必要とする。
論文 参考訳(メタデータ) (2024-03-08T14:04:30Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Improving Visual Representation Learning through Perceptual
Understanding [0.0]
本稿では,より高度なシーンレベルの特徴の学習を明示的に奨励することにより,モデルによって学習された表現を改善するマスク付きオートエンコーダ(MAE)の拡張を提案する。
我々はImageNet-1Kで78.1%の精度で線形探索を行い、微調整時に88.1%の精度を達成し、他の下流タスクも同様の結果を得た。
論文 参考訳(メタデータ) (2022-12-30T00:59:46Z) - SAGE: Saliency-Guided Mixup with Optimal Rearrangements [22.112463794733188]
最適リアレンジメント(SAGE)を用いたサリエンシ誘導混合
SAGEは、ビジュアル・サリエンシをガイダンスとして、イメージペアを並べ替え、混合することで、新しいトレーニング例を作成する。
我々は, CIFAR-10 と CIFAR-100 について, SAGE がより効率的でありながら, より優れた性能と同等の性能を達成できることを実証した。
論文 参考訳(メタデータ) (2022-10-31T19:45:21Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。