論文の概要: Learning Imbalanced Data with Vision Transformers
- arxiv url: http://arxiv.org/abs/2212.02015v1
- Date: Mon, 5 Dec 2022 04:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:55:51.470482
- Title: Learning Imbalanced Data with Vision Transformers
- Title(参考訳): 視覚トランスフォーマーを用いた不均衡データの学習
- Authors: Zhengzhuo Xu and Ruikang Liu and Shuo Yang and Zenghao Chai and Chun
Yuan
- Abstract要約: 我々はLong-Tailed(LT)データのみを用いて視覚変換器(ViT)をスクラッチから訓練するLiVTを提案する。
Masked Generative Pretraining (MGP) は教師付き手法よりも頑健であることを示す。
私たちのBal-BCEは、ほんの少しのエポックにおいて、ViTの迅速な収束に寄与します。
- 参考スコア(独自算出の注目度): 17.14790664854141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The real-world data tends to be heavily imbalanced and severely skew the
data-driven deep neural networks, which makes Long-Tailed Recognition (LTR) a
massive challenging task. Existing LTR methods seldom train Vision Transformers
(ViTs) with Long-Tailed (LT) data, while the off-the-shelf pretrain weight of
ViTs always leads to unfair comparisons. In this paper, we systematically
investigate the ViTs' performance in LTR and propose LiVT to train ViTs from
scratch only with LT data. With the observation that ViTs suffer more severe
LTR problems, we conduct Masked Generative Pretraining (MGP) to learn
generalized features. With ample and solid evidence, we show that MGP is more
robust than supervised manners. In addition, Binary Cross Entropy (BCE) loss,
which shows conspicuous performance with ViTs, encounters predicaments in LTR.
We further propose the balanced BCE to ameliorate it with strong theoretical
groundings. Specially, we derive the unbiased extension of Sigmoid and
compensate extra logit margins to deploy it. Our Bal-BCE contributes to the
quick convergence of ViTs in just a few epochs. Extensive experiments
demonstrate that with MGP and Bal-BCE, LiVT successfully trains ViTs well
without any additional data and outperforms comparable state-of-the-art methods
significantly, e.g., our ViT-B achieves 81.0% Top-1 accuracy in iNaturalist
2018 without bells and whistles. Code is available at
https://github.com/XuZhengzhuo/LiVT.
- Abstract(参考訳): 現実世界のデータはかなり不均衡で、データ駆動のディープニューラルネットワークをひどく歪めてしまう傾向があるため、Long-Tailed Recognition(LTR)は大きな課題となる。
既存のLTR方式ではビジョントランスフォーマー(ViT)をLong-Tailed(LT)データで訓練することはめったにないが、市販のViTのプレトレイン重量は不公平な比較に繋がる。
本稿では,LTR における ViT の性能を体系的に検討し,LT データのみを用いて ViT をスクラッチからトレーニングするための LiVT を提案する。
より深刻なLTR問題に苦しむViTsの観察により,一般化された特徴を学習するためにMasked Generative Pretraining(MGP)を行う。
十分な確固たる証拠が得られた結果,MGPは教師付き手法よりも頑健であることが判明した。
さらに, ViT による顕著な性能を示すバイナリクロスエントロピー(BCE)損失は, LTR の捕食に遭遇する。
さらに, バランスの取れたbceを, 強固な理論的接地で改良する提案を行う。
特に,シグモイドの偏りのない伸長を導出し,その展開のために余分なロジットマージンを補償する。
私たちのBal-BCEは、ほんの少しの時期におけるViTの迅速な収束に寄与します。
MGPとBal-BCEでは、LiVTは付加的なデータなしでViTsをうまく訓練し、同等の最先端の手法を著しく上回り、例えば、我々のViT-Bはベルや笛なしで2018年のiNaturalist 2018で81.0%の精度で達成している。
コードはhttps://github.com/xuzhengzhuo/livtで入手できる。
関連論文リスト
- DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets [30.178427266135756]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクの顕著なアーキテクチャとして登場した。
ViTは事前トレーニングに大量のデータを必要とする。
DeiT-LTを導入し、長い尾のデータセットのスクラッチからViTをトレーニングする問題に対処する。
論文 参考訳(メタデータ) (2024-04-03T17:58:21Z) - Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked
Autoencoders [32.2455570714414]
ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいてユビキタス化されている。
ViTには誘導バイアスがないため、限られたデータでトレーニングすることは難しくなる。
本稿では,視覚障害者が自己監督タスクと一次タスクの両方のユニークな特徴を活用できるようにする手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T17:59:07Z) - Rethink Long-tailed Recognition with Vision Transformers [18.73285611631722]
ビジョントランスフォーマー(ViT)は、長い尾のデータでトレーニングするのが難しい。
ViTは教師なしの方法で一般化された特徴を学習する。
予測分布(英: Predictive Distribution、PDC)は、長手認識のための新しい指標である。
論文 参考訳(メタデータ) (2023-02-28T03:36:48Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Bootstrapping ViTs: Towards Liberating Vision Transformers from
Pre-training [29.20567759071523]
ビジョントランスフォーマー(ViT)は急速に発展し、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。
本稿では,上位境界のネットワークアーキテクチャを保ちながら,CNNのインダクティブバイアスをViTに戻す。
CIFAR-10/100 と ImageNet-1k の限られたトレーニングデータによる実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-07T07:56:50Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。