論文の概要: Bootstrap your own latent: A new approach to self-supervised Learning
- arxiv url: http://arxiv.org/abs/2006.07733v3
- Date: Thu, 10 Sep 2020 09:46:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 20:23:23.679348
- Title: Bootstrap your own latent: A new approach to self-supervised Learning
- Title(参考訳): bootstrap your own latent: 自己教師付き学習への新しいアプローチ
- Authors: Jean-Bastien Grill, Florian Strub, Florent Altch\'e, Corentin Tallec,
Pierre H. Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires,
Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu,
R\'emi Munos, Michal Valko
- Abstract要約: 本稿では,自己教師型画像表現学習の新しいアプローチであるBootstrap Your Own Latent (BYOL)を紹介する。
BYOLはオンラインとターゲットネットワークと呼ばれる2つのニューラルネットワークに依存し、互いに対話し、学習する。
BYOLは、転送と半教師付きベンチマークの両方において、現在の最先端技術よりも同等以上のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 42.05440205898349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Bootstrap Your Own Latent (BYOL), a new approach to
self-supervised image representation learning. BYOL relies on two neural
networks, referred to as online and target networks, that interact and learn
from each other. From an augmented view of an image, we train the online
network to predict the target network representation of the same image under a
different augmented view. At the same time, we update the target network with a
slow-moving average of the online network. While state-of-the art methods rely
on negative pairs, BYOL achieves a new state of the art without them. BYOL
reaches $74.3\%$ top-1 classification accuracy on ImageNet using a linear
evaluation with a ResNet-50 architecture and $79.6\%$ with a larger ResNet. We
show that BYOL performs on par or better than the current state of the art on
both transfer and semi-supervised benchmarks. Our implementation and pretrained
models are given on GitHub.
- Abstract(参考訳): 自己教師付き画像表現学習の新しいアプローチであるbootstrap your own latent (byol)を導入する。
BYOLはオンラインとターゲットネットワークと呼ばれる2つのニューラルネットワークに依存し、互いに対話し、学習する。
画像の拡張ビューから、オンラインネットワークを訓練し、異なる拡張ビューの下で同じ画像のターゲットネットワーク表現を予測する。
同時に、ターゲットネットワークをオンラインネットワークの遅い平均値で更新する。
最先端の技法は負の対に依存するが、byolはそれらなしで新しい状態の芸術を実現する。
byolは、resnet-50アーキテクチャによる線形評価とより大きなresnetによる79.6\%$を使用して、imagenetで74.3\%$ top-1分類精度に達した。
BYOLは、転送と半教師付きベンチマークの両方において、現在の最先端技術よりも同等以上のパフォーマンスを示す。
実装と事前トレーニングされたモデルはgithubで提供されている。
関連論文リスト
- MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - A Simple Recipe for Competitive Low-compute Self supervised Vision
Models [29.11909077131192]
本稿では,高性能低計算量ニューラルネットワークを学習可能な,簡易な自己教師型蒸留手法を提案する。
本研究の主な知見は,既存の共同埋め込み型SSL手法を,大規模自己指導型教師から小学生モデルへの知識蒸留に活用できることである。
われわれの最高のViT-Tinyモデルは、ImageNet上のSSLの状態を2.3%改善し、監督された蒸留されたDeiTと同等かそれ以上である。
論文 参考訳(メタデータ) (2023-01-23T14:20:01Z) - Co-training $2^L$ Submodels for Visual Recognition [67.02999567435626]
サブモデルコトレーニングは、コトレーニング、自己蒸留、深さに関連する正規化手法である。
サブモデルのコトレーニングは,画像分類やセマンティックセグメンテーションなどの認識タスクのためのバックボーンのトレーニングに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-09T14:38:09Z) - Pushing the limits of self-supervised ResNets: Can we outperform
supervised learning without labels on ImageNet? [35.98841834512082]
Relicv2は、教師付きベースラインを類似した比較で一貫して上回る最初の表現学習法である。
ResNetエンコーダを使用しているにもかかわらず、Relicv2は最先端の自己教師型視覚変換器と同等であることを示す。
論文 参考訳(メタデータ) (2022-01-13T18:23:30Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Adjoined Networks: A Training Paradigm with Applications to Network
Compression [3.995047443480282]
本稿では、元のベースネットワークとより小さな圧縮ネットワークの両方を同時にトレーニングする学習パラダイムであるAdjoined Networks(AN)を紹介する。
ベースネットワークとしてResNet-50を使用すると、画像Netデータセット上の1.8Mパラメータと1.6GFLOPで71.8%のトップ-1の精度が達成される。
我々は,ニューラルネットワーク探索を用いて,より小さなネットワークの各レイヤの幅と重みを共同で学習し,ANを増強する訓練パラダイムであるDaniable Adjoined Networks (DAN)を提案する。
論文 参考訳(メタデータ) (2020-06-10T02:48:16Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。