論文の概要: Hybrid BYOL-ViT: Efficient approach to deal with small Datasets
- arxiv url: http://arxiv.org/abs/2111.04845v1
- Date: Mon, 8 Nov 2021 21:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 14:46:36.431710
- Title: Hybrid BYOL-ViT: Efficient approach to deal with small Datasets
- Title(参考訳): ハイブリッドBYOL-ViT:小さなデータセットを扱うための効率的なアプローチ
- Authors: Safwen Naimi, Rien van Leeuwen, Wided Souidene and Slim Ben Saoud
- Abstract要約: 本稿では,ラベルなしデータの強大かつ十分な増大を伴う自己超越が,ニューラルネットワークの第1層を効果的に学習する方法について検討する。
自己教師型アーキテクチャから派生した低レベルの特徴は、この創発的アーキテクチャの堅牢性と全体的な性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised learning can learn large representational spaces, which are
crucial for handling difficult learning tasks. However, due to the design of
the model, classical image classification approaches struggle to generalize to
new problems and new situations when dealing with small datasets. In fact,
supervised learning can lose the location of image features which leads to
supervision collapse in very deep architectures. In this paper, we investigate
how self-supervision with strong and sufficient augmentation of unlabeled data
can train effectively the first layers of a neural network even better than
supervised learning, with no need for millions of labeled data. The main goal
is to disconnect pixel data from annotation by getting generic task-agnostic
low-level features. Furthermore, we look into Vision Transformers (ViT) and
show that the low-level features derived from a self-supervised architecture
can improve the robustness and the overall performance of this emergent
architecture. We evaluated our method on one of the smallest open-source
datasets STL-10 and we obtained a significant boost of performance from 41.66%
to 83.25% when inputting low-level features from a self-supervised learning
architecture to the ViT instead of the raw images.
- Abstract(参考訳): 教師付き学習は大きな表現空間を学習することができる。
しかし、モデルの設計により、従来の画像分類手法は、小さなデータセットを扱う際に、新しい問題や新しい状況に一般化するのに苦労する。
実際、教師付き学習は、非常に深いアーキテクチャで監督崩壊につながる画像特徴の位置を失う可能性がある。
本稿では,ラベルなしデータの強固かつ十分な拡張による自己スーパービジョンが,教師付き学習よりもニューラルネットワークの第1層を効果的に学習し,数百万のラベル付きデータを必要としないことを検討する。
主な目標は、一般的なタスクに依存しない低レベル機能を得ることで、アノテーションからピクセルデータを切り離すことである。
さらに,視覚トランスフォーマー(vit)について検討し,自己教師付きアーキテクチャから派生した低レベル機能は,この創発的アーキテクチャのロバスト性と全体的な性能を向上させることができることを示した。
提案手法を最小のオープンソースデータセットであるSTL-10を用いて評価し,自己教師付き学習アーキテクチャから生画像の代わりにViTに低レベル特徴を入力した場合,性能を41.66%から83.25%に向上させた。
関連論文リスト
- Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。
従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。
MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文 参考訳(メタデータ) (2024-11-26T02:23:31Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Let Segment Anything Help Image Dehaze [12.163299570927302]
低レベルコンピュータビジョンタスクに先立って,大規模モデルを統合するためのフレームワークを提案する。
低レベル視覚タスクの導出における大規模モデルの有効性と適用性を示す。
論文 参考訳(メタデータ) (2023-06-28T02:02:19Z) - Enhancing Performance of Vision Transformers on Small Datasets through
Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。
本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。
提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文 参考訳(メタデータ) (2023-05-15T11:23:18Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - Transformer-Based Behavioral Representation Learning Enables Transfer
Learning for Mobile Sensing in Small Datasets [4.276883061502341]
時系列から一般化可能な特徴表現を学習できるモバイルセンシングデータのためのニューラルネットワークフレームワークを提供する。
このアーキテクチャは、CNNとTrans-formerアーキテクチャの利点を組み合わせて、より良い予測性能を実現する。
論文 参考訳(メタデータ) (2021-07-09T22:26:50Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Learning Visual Representations for Transfer Learning by Suppressing
Texture [38.901410057407766]
自己教師付き学習では、低レベルのキューとしてのテクスチャは、ネットワークがより高いレベルの表現を学習することを防ぐショートカットを提供する。
本稿では,異方性拡散に基づく古典的手法を用いて,テクスチャを抑圧した画像を用いた強化訓練を提案する。
提案手法は,物体検出と画像分類における最先端の成果を実証的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:27:03Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。