論文の概要: Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked
Autoencoders
- arxiv url: http://arxiv.org/abs/2310.20704v2
- Date: Wed, 27 Dec 2023 07:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:02:00.479005
- Title: Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked
Autoencoders
- Title(参考訳): 限定データと無制限ポテンシャル:マスク付きオートエンコーダによるvits拡張に関する研究
- Authors: Srijan Das, Tanmay Jain, Dominick Reilly, Pranav Balaji, Soumyajit
Karmakar, Shyam Marjit, Xiang Li, Abhijit Das, and Michael S. Ryoo
- Abstract要約: ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいてユビキタス化されている。
ViTには誘導バイアスがないため、限られたデータでトレーニングすることは難しくなる。
本稿では,視覚障害者が自己監督タスクと一次タスクの両方のユニークな特徴を活用できるようにする手法を提案する。
- 参考スコア(独自算出の注目度): 32.2455570714414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have become ubiquitous in computer vision. Despite
their success, ViTs lack inductive biases, which can make it difficult to train
them with limited data. To address this challenge, prior studies suggest
training ViTs with self-supervised learning (SSL) and fine-tuning sequentially.
However, we observe that jointly optimizing ViTs for the primary task and a
Self-Supervised Auxiliary Task (SSAT) is surprisingly beneficial when the
amount of training data is limited. We explore the appropriate SSL tasks that
can be optimized alongside the primary task, the training schemes for these
tasks, and the data scale at which they can be most effective. Our findings
reveal that SSAT is a powerful technique that enables ViTs to leverage the
unique characteristics of both the self-supervised and primary tasks, achieving
better performance than typical ViTs pre-training with SSL and fine-tuning
sequentially. Our experiments, conducted on 10 datasets, demonstrate that SSAT
significantly improves ViT performance while reducing carbon footprint. We also
confirm the effectiveness of SSAT in the video domain for deepfake detection,
showcasing its generalizability. Our code is available at
https://github.com/dominickrei/Limited-data-vits.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいてユビキタスになった。
彼らの成功にもかかわらず、ViTには誘導バイアスがないため、限られたデータでトレーニングすることは難しい。
この課題に対処するために、先行研究では、自己教師付き学習(SSL)と微調整を順次行うViTのトレーニングを提案する。
しかし,訓練データの量に制限がある場合には,主タスクと自己監督補助タスク(SSAT)を共同最適化することは驚くほど有益である。
我々は、主要なタスクと並行して最適化できる適切なSSLタスク、これらのタスクのトレーニングスキーム、そしてそれらが最も効果的であるデータスケールについて検討する。
以上の結果から,SSATは自己教師型タスクとプライマリタスクの両方の特長を活用できる強力な技術であり,SSLの事前トレーニングや微調整による微調整よりも優れた性能を実現していることがわかった。
実験では, 炭素フットプリントを低減しつつ, SSAT が ViT 性能を大幅に向上することを示した。
また,ビデオ領域におけるSSATの有効性を確認し,その一般化性を示す。
私たちのコードはhttps://github.com/dominickrei/limited-data-vitsで利用可能です。
関連論文リスト
- Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Learning Imbalanced Data with Vision Transformers [17.14790664854141]
我々はLong-Tailed(LT)データのみを用いて視覚変換器(ViT)をスクラッチから訓練するLiVTを提案する。
Masked Generative Pretraining (MGP) は教師付き手法よりも頑健であることを示す。
私たちのBal-BCEは、ほんの少しのエポックにおいて、ViTの迅速な収束に寄与します。
論文 参考訳(メタデータ) (2022-12-05T04:05:32Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Meta-attention for ViT-backed Continual Learning [35.31816553097367]
視覚変換器(ViT)はコンピュータビジョンの分野を徐々に支配している。
ViTは、CNNベースの連続学習に簡単に適用すれば、深刻なパフォーマンス劣化に悩まされる可能性がある。
学習済みのタスクのパフォーマンスを犠牲にすることなく、トレーニング済みのViTを新しいタスクに適用するためのMeta-Atention(MEAT)を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:58:39Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。