論文の概要: A Simple Recipe for Competitive Low-compute Self supervised Vision
Models
- arxiv url: http://arxiv.org/abs/2301.09451v1
- Date: Mon, 23 Jan 2023 14:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 13:24:59.117717
- Title: A Simple Recipe for Competitive Low-compute Self supervised Vision
Models
- Title(参考訳): 競争力の低い自己監督型視覚モデルのための簡易レシピ
- Authors: Quentin Duval, Ishan Misra, Nicolas Ballas
- Abstract要約: 本稿では,高性能低計算量ニューラルネットワークを学習可能な,簡易な自己教師型蒸留手法を提案する。
本研究の主な知見は,既存の共同埋め込み型SSL手法を,大規模自己指導型教師から小学生モデルへの知識蒸留に活用できることである。
われわれの最高のViT-Tinyモデルは、ImageNet上のSSLの状態を2.3%改善し、監督された蒸留されたDeiTと同等かそれ以上である。
- 参考スコア(独自算出の注目度): 29.11909077131192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised methods in vision have been mostly focused on large
architectures as they seem to suffer from a significant performance drop for
smaller architectures. In this paper, we propose a simple self-supervised
distillation technique that can train high performance low-compute neural
networks. Our main insight is that existing joint-embedding based SSL methods
can be repurposed for knowledge distillation from a large self-supervised
teacher to a small student model. Thus, we call our method Replace one Branch
(RoB) as it simply replaces one branch of the joint-embedding training with a
large teacher model. RoB is widely applicable to a number of architectures such
as small ResNets, MobileNets and ViT, and pretrained models such as DINO, SwAV
or iBOT. When pretraining on the ImageNet dataset, RoB yields models that
compete with supervised knowledge distillation. When applied to MSN, RoB
produces students with strong semi-supervised capabilities. Finally, our best
ViT-Tiny models improve over prior SSL state-of-the-art on ImageNet by $2.3\%$
and are on par or better than a supervised distilled DeiT on five downstream
transfer tasks (iNaturalist, CIFAR, Clevr/Count, Clevr/Dist and Places). We
hope RoB enables practical self-supervision at smaller scale.
- Abstract(参考訳): 視覚における自己監督的手法は、小さなアーキテクチャにとって大きなパフォーマンス低下に悩まされているように見えるため、大きなアーキテクチャに主に焦点を合わせてきた。
本稿では,高性能低計算ニューラルネットワークを訓練する簡易な自己教師付き蒸留手法を提案する。
本研究の主な知見は,既存の共同埋め込み型SSL手法を,大規模自己指導型教師から小学生モデルへの知識蒸留に活用できることである。
そこで我々は,共同埋め込みトレーニングの1つのブランチを大規模教師モデルに置き換えることによって,この手法をRoB(Replace one Branch)と呼ぶ。
RoBは、小さなResNets、MobileNets、ViTのような多くのアーキテクチャや、DINO、SwaV、iBOTといった事前訓練されたモデルに広く適用されている。
ImageNetデータセットで事前トレーニングを行うと、RoBは教師付き知識蒸留と競合するモデルを生成する。
MSNに適用すると、RoBは強力な半教師付き能力を持つ学生を生み出す。
最後に、私たちの最高のViT-Tinyモデルは、ImageNetのSSL以前の状態を2.3\%$で改善し、5つの下流転送タスク(iNaturalist、CIFAR、Clevr/Count、Clevr/Dist、Places)で蒸留されたDeiTと同等かそれ以上である。
RoBがより小規模で実践的なセルフスーパービジョンを実現することを願っている。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Battle of the Backbones: A Large-Scale Comparison of Pretrained Models
across Computer Vision Tasks [139.3768582233067]
Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。
視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。
同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T18:23:58Z) - LowDINO -- A Low Parameter Self Supervised Learning Model [0.0]
本研究は,小規模ネットワークが巨大ネットワークの特性を活用可能なニューラルネットワークアーキテクチャの設計の可能性を検討することを目的とする。
これまでの研究では、畳み込みニューラルネットワーク(ConvNet)を使用することで、固有の帰納バイアスが得られることが示されている。
パラメータの数を減らすために、MobileViTブロックを使用してアテンションメカニズムを利用する。
論文 参考訳(メタデータ) (2023-05-28T18:34:59Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Attention Distillation: self-supervised vision transformer students need
more guidance [37.37272042838411]
自己監督型視覚変換器(ViT-SSKD)の知識蒸留に関する研究
我々は,ImageNet-SubsetとImageNet-1Kの実験において,既存の自己教師型知識蒸留法(SSKD)よりも優れていることを示す。
また、この小さなViT-Tモデルを自己教師あり学習に適用した最初の人物である。
論文 参考訳(メタデータ) (2022-10-03T14:01:46Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - SEED: Self-supervised Distillation For Visual Representation [34.63488756535054]
SEED(Self-SupErvised Distillation)と呼ばれる新しい学習パラダイムを提案し、自己監督的な方法でその表現的知識を小さなアーキテクチャ(学生)に転送します。
私達はSEEDが下流の仕事の小さいネットワークの性能を劇的に高めることを示します。
論文 参考訳(メタデータ) (2021-01-12T20:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。