論文の概要: Improving Vision Transformers for Incremental Learning
- arxiv url: http://arxiv.org/abs/2112.06103v1
- Date: Sun, 12 Dec 2021 00:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 17:12:54.944518
- Title: Improving Vision Transformers for Incremental Learning
- Title(参考訳): インクリメンタル学習のための視覚トランスフォーマーの改善
- Authors: Pei Yu, Yinpeng Chen, Ying Jin, Zicheng Liu
- Abstract要約: 本稿では、クラスインクリメンタルラーニングにおける視覚変換器(ViT)の応用について検討する。
クラス数が小さいとき、ViTは収束が非常に遅い。
新しいクラスに対するバイアスは、CNNベースのモデルよりもViTの方が大きい。
- 参考スコア(独自算出の注目度): 17.276384689286168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies using Vision Transformers (ViT) in class incremental
learning. Surprisingly, naive application of ViT to replace convolutional
neural networks (CNNs) results in performance degradation. Our analysis reveals
three issues of naively using ViT: (a) ViT has very slow convergence when class
number is small, (b) more bias towards new classes is observed in ViT than
CNN-based models, and (c) the proper learning rate of ViT is too low to learn a
good classifier. Base on this analysis, we show these issues can be simply
addressed by using existing techniques: using convolutional stem, balanced
finetuning to correct bias, and higher learning rate for the classifier. Our
simple solution, named ViTIL (ViT for Incremental Learning), achieves the new
state-of-the-art for all three class incremental learning setups by a clear
margin, providing a strong baseline for the research community. For instance,
on ImageNet-1000, our ViTIL achieves 69.20% top-1 accuracy for the protocol of
500 initial classes with 5 incremental steps (100 new classes for each),
outperforming LUCIR+DDE by 1.69%. For more challenging protocol of 10
incremental steps (100 new classes), our method outperforms PODNet by 7.27%
(65.13% vs. 57.86%).
- Abstract(参考訳): 本稿では,クラスインクリメンタル学習における視覚変換器(ViT)の応用について検討する。
驚くべきことに、畳み込みニューラルネットワーク(CNN)を置き換えるためのViTの単純適用により、パフォーマンスが低下する。
分析の結果, 経鼻的ViT使用の3つの問題点が明らかになった。
(a) ViT はクラス数が小さいときに非常に緩やかに収束する。
b) 新しいクラスに対するバイアスは、CNNベースのモデルよりもViTで観察され、
(c)ViTの適切な学習速度は低すぎて、優れた分類器を学習できない。
この分析に基づいて、これらの問題は、畳み込みstemの使用、バイアスを正すためのバランスのとれた微調整、分類器の学習率の向上など、既存の技術を使って単純に対処できることを示す。
ViTIL(ViT for Incremental Learning)と名付けられた私たちのシンプルなソリューションは、3つのクラスにまたがるインクリメンタルラーニングのセットアップを、明確なマージンで実現し、研究コミュニティに強力なベースラインを提供する。
例えば、ImageNet-1000では、5つのインクリメンタルステップ(それぞれ100の新しいクラス)を持つ500のイニシャルクラスのプロトコルで69.20%のトップ-1の精度を達成し、LUCIR+DDEを1.69%上回っています。
10段階(100の新しいクラス)のより難しいプロトコルでは、PODNetを7.27%上回る(65.13%対57.86%)。
関連論文リスト
- Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery [0.0]
ビジョントランスフォーマー(ViT)は最近、コンピュータビジョンの分野で新しい研究の波をもたらした。
本稿では、iSAID上のリモートセンシング空中画像のセマンティックセグメンテーションにViTを使用する(あるいは使用しない)3つの重要な要素の比較に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-14T00:18:04Z) - Parameter Efficient Fine-tuning of Self-supervised ViTs without Catastrophic Forgetting [0.5249805590164901]
新しいタスクの事前訓練と微調整は、モデルの本来の汎用能力を著しく低下させる可能性がある。
この安定性-塑性ジレンマを克服することは、ViTsが継続的に学習し、新しいドメインに適応するために重要である。
実験の結果,自己学習型VTではブロック拡張あるいはLORAが,新しいドメインの完全な微調整型VTを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-04-26T08:35:46Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Better plain ViT baselines for ImageNet-1k [100.80574771242937]
Vision Transformer モデルは ImageNet-1k スケールのデータに精通するために高度な正規化技術を必要とすることが一般的である。
このノートは、オリジナルのViT(Vision Transformer)バニラトレーニング設定にいくつかの小さな変更を加え、平易なViTモデルの性能を劇的に改善した。
論文 参考訳(メタデータ) (2022-05-03T15:54:44Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Self-Supervised Learning with Swin Transformers [24.956637957269926]
ビジョントランスフォーマーをバックボーンアーキテクチャとして,MoBYと呼ばれる自己監視型学習アプローチを提案する。
このアプローチには基本的に新しい発明がなく、MoCo v2とBYOLを組み合わせている。
パフォーマンスは、DeiTをバックボーンとして採用しているMoCo v3とDINOの最近の作品よりもわずかに優れていますが、はるかに軽いトリックがあります。
論文 参考訳(メタデータ) (2021-05-10T17:59:45Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - Compounding the Performance Improvements of Assembled Techniques in a
Convolutional Neural Network [6.938261599173859]
基本CNNモデルの精度とロバスト性を改善する方法について述べる。
提案したResNet-50は、トップ1の精度を76.3%から82.78%、mCEを76.0%から48.9%、mFRを57.7%から32.3%に改善した。
CVPR 2019でiFood Competition Fine-Grained Visual Recognitionで1位を獲得した。
論文 参考訳(メタデータ) (2020-01-17T12:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。