論文の概要: Self-Distilled Self-Supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2111.12958v1
- Date: Thu, 25 Nov 2021 07:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:47:24.114603
- Title: Self-Distilled Self-Supervised Representation Learning
- Title(参考訳): 自己蒸留自己教師形表現学習
- Authors: Jiho Jang, Seonhoon Kim, Kiyoon Yoo, Jangho Kim, Nojun Kwak
- Abstract要約: 自己教師付き学習における最先端のフレームワークは、トランスフォーマーベースのモデルを完全に活用することでパフォーマンスが向上することを示した。
本研究では, コントラッシブ・ロスにより, 中間表現が最終層から学習できるようにすることにより, さらにこれを活用する。
我々の手法であるSDSSL(Self-Distilled Self-Supervised Learning)は,様々なタスクやデータセット上でのViTを用いた競争ベースライン(SimCLR, BYOL, MoCo v3)より優れています。
- 参考スコア(独自算出の注目度): 35.60243157730165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art frameworks in self-supervised learning have recently shown
that fully utilizing transformer-based models can lead to performance boost
compared to conventional CNN models. Thriving to maximize the mutual
information of two views of an image, existing works apply a contrastive loss
to the final representations. In our work, we further exploit this by allowing
the intermediate representations to learn from the final layers via the
contrastive loss, which is maximizing the upper bound of the original goal and
the mutual information between two layers. Our method, Self-Distilled
Self-Supervised Learning (SDSSL), outperforms competitive baselines (SimCLR,
BYOL and MoCo v3) using ViT on various tasks and datasets. In the linear
evaluation and k-NN protocol, SDSSL not only leads to superior performance in
the final layers, but also in most of the lower layers. Furthermore, positive
and negative alignments are used to explain how representations are formed more
effectively. Code will be available.
- Abstract(参考訳): 自己教師付き学習における最先端フレームワークは、トランスフォーマーベースのモデルを完全に活用することで、従来のCNNモデルと比較してパフォーマンスが向上することを示した。
画像の2つのビューの相互情報を最大化するために、既存の作品は最終表現に対照的な損失を与える。
また,本研究では,中間表現を最終層から学習させることにより,元の目標の上限と2層間の相互情報を最大化するコントラスト的損失を生かして,さらに活用する。
我々の手法であるSDSSL(Self-Distilled Self-Supervised Learning)は,様々なタスクやデータセット上でのViTを用いた競争ベースライン(SimCLR, BYOL, MoCo v3)より優れています。
線形評価およびk-NNプロトコルでは、SDSSLは最終層において優れたパフォーマンスをもたらすだけでなく、ほとんどの下位層でも性能が向上する。
さらに、表現をより効果的に形成する方法を説明するために、正と負のアライメントが用いられる。
コードは利用可能だ。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Virtual embeddings and self-consistency for self-supervised learning [43.086696088061416]
TriMixは、線形データを通じて仮想埋め込みを生成する自己教師型学習の新しい概念である。
我々は,TriMixを2.71%,0.41%改善した8つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-06-13T10:20:28Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Distilling Visual Priors from Self-Supervised Learning [24.79633121345066]
畳み込みニューラルネットワーク(CNN)は、小さなトレーニングデータセットに適合する傾向にある。
データ不足条件下での画像分類のためのCNNモデルの一般化能力を向上させるために,自己教師付き学習と知識蒸留を活用した2相パイプラインを提案する。
論文 参考訳(メタデータ) (2020-08-01T13:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。