論文の概要: DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets
- arxiv url: http://arxiv.org/abs/2404.02900v1
- Date: Wed, 3 Apr 2024 17:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 16:40:30.920419
- Title: DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets
- Title(参考訳): DeiT-LT蒸留による長期データセットの視覚変換器訓練
- Authors: Harsh Rangwani, Pradipto Mondal, Mayank Mishra, Ashish Ramayee Asokan, R. Venkatesh Babu,
- Abstract要約: Vision Transformer (ViT) は様々なコンピュータビジョンタスクの顕著なアーキテクチャとして登場した。
ViTは事前トレーニングに大量のデータを必要とする。
DeiT-LTを導入し、長い尾のデータセットのスクラッチからViTをトレーニングする問題に対処する。
- 参考スコア(独自算出の注目度): 30.178427266135756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) has emerged as a prominent architecture for various computer vision tasks. In ViT, we divide the input image into patch tokens and process them through a stack of self attention blocks. However, unlike Convolutional Neural Networks (CNN), ViTs simple architecture has no informative inductive bias (e.g., locality,etc. ). Due to this, ViT requires a large amount of data for pre-training. Various data efficient approaches (DeiT) have been proposed to train ViT on balanced datasets effectively. However, limited literature discusses the use of ViT for datasets with long-tailed imbalances. In this work, we introduce DeiT-LT to tackle the problem of training ViTs from scratch on long-tailed datasets. In DeiT-LT, we introduce an efficient and effective way of distillation from CNN via distillation DIST token by using out-of-distribution images and re-weighting the distillation loss to enhance focus on tail classes. This leads to the learning of local CNN-like features in early ViT blocks, improving generalization for tail classes. Further, to mitigate overfitting, we propose distilling from a flat CNN teacher, which leads to learning low-rank generalizable features for DIST tokens across all ViT blocks. With the proposed DeiT-LT scheme, the distillation DIST token becomes an expert on the tail classes, and the classifier CLS token becomes an expert on the head classes. The experts help to effectively learn features corresponding to both the majority and minority classes using a distinct set of tokens within the same ViT architecture. We show the effectiveness of DeiT-LT for training ViT from scratch on datasets ranging from small-scale CIFAR-10 LT to large-scale iNaturalist-2018.
- Abstract(参考訳): Vision Transformer (ViT) は様々なコンピュータビジョンタスクの顕著なアーキテクチャとして登場した。
ViTでは、入力画像をパッチトークンに分割し、セルフアテンションブロックのスタックを通して処理する。
しかし、畳み込みニューラルネットワーク(CNN)とは異なり、ViTsの単純なアーキテクチャは情報的帰納バイアス(例えば、局所性、etc)を持たない。
このため、ViTは事前トレーニングに大量のデータを必要とする。
バランスの取れたデータセットを効果的にトレーニングするために、様々なデータ効率のアプローチ(DeiT)が提案されている。
しかし、長い尾の不均衡を持つデータセットに対するViTの使用について、限られた文献で論じている。
本研究では,長い尾を持つデータセット上で,ViTをスクラッチからトレーニングする問題に対処するためにDeiT-LTを導入する。
DeiT-LTでは, 蒸留DISTトークンを用いてCNNからの蒸留を効率よく, 効果的に行う方法を紹介した。
これにより、初期のViTブロックでローカルCNNのような機能を学ぶことができ、テールクラスの一般化が向上した。
さらに, オーバーフィッティングを緩和するため, 平らなCNN教師からの蒸留を提案し, 全VTブロックにまたがるDISTトークンの低ランク一般化可能な特徴を学習する。
提案したDeiT-LTスキームでは、蒸留DISTトークンはテールクラスのエキスパートとなり、分類器CRSトークンはヘッドクラスのエキスパートとなる。
専門家は、同じViTアーキテクチャ内で異なるトークンセットを使用して、多数派クラスと少数派クラスの両方に対応する機能を効果的に学習するのに役立つ。
我々は,小型CIFAR-10 LTから大規模iNaturalist-2018までのデータセット上で,スクラッチからViTをトレーニングするためのDeiT-LTの有効性を示す。
関連論文リスト
- Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - AViT: Adapting Vision Transformers for Small Skin Lesion Segmentation Datasets [19.44142290594537]
AViTは、トレーニング済みのViTをSLSタスクに転送することで、ViTのデータハンガーを緩和する新しい戦略である。
AViTはSOTAよりも競争力があり、時には優れているが、訓練可能なパラメータは大幅に少ない。
論文 参考訳(メタデータ) (2023-07-26T01:44:31Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Learning Imbalanced Data with Vision Transformers [17.14790664854141]
我々はLong-Tailed(LT)データのみを用いて視覚変換器(ViT)をスクラッチから訓練するLiVTを提案する。
Masked Generative Pretraining (MGP) は教師付き手法よりも頑健であることを示す。
私たちのBal-BCEは、ほんの少しのエポックにおいて、ViTの迅速な収束に寄与します。
論文 参考訳(メタデータ) (2022-12-05T04:05:32Z) - ViT-FOD: A Vision Transformer based Fine-grained Object Discriminator [21.351034332423374]
細粒度画像分類(FGVC)タスクのための新しいViTに基づく細粒度物体識別器を提案する。
ViTバックボーンの他に、APC(Attention Patch Combination)、CRF(Critical Regions Filter)、CTI(Complementary Tokens Integration)という3つの新しいコンポーネントが導入されている。
我々は広く使われているデータセットに関する包括的な実験を行い、その結果、ViT-FODが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2022-03-24T02:34:57Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。