論文の概要: Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked
Autoencoders
- arxiv url: http://arxiv.org/abs/2310.20704v2
- Date: Wed, 27 Dec 2023 07:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:02:00.479005
- Title: Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked
Autoencoders
- Title(参考訳): 限定データと無制限ポテンシャル:マスク付きオートエンコーダによるvits拡張に関する研究
- Authors: Srijan Das, Tanmay Jain, Dominick Reilly, Pranav Balaji, Soumyajit
Karmakar, Shyam Marjit, Xiang Li, Abhijit Das, and Michael S. Ryoo
- Abstract要約: ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいてユビキタス化されている。
ViTには誘導バイアスがないため、限られたデータでトレーニングすることは難しくなる。
本稿では,視覚障害者が自己監督タスクと一次タスクの両方のユニークな特徴を活用できるようにする手法を提案する。
- 参考スコア(独自算出の注目度): 32.2455570714414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have become ubiquitous in computer vision. Despite
their success, ViTs lack inductive biases, which can make it difficult to train
them with limited data. To address this challenge, prior studies suggest
training ViTs with self-supervised learning (SSL) and fine-tuning sequentially.
However, we observe that jointly optimizing ViTs for the primary task and a
Self-Supervised Auxiliary Task (SSAT) is surprisingly beneficial when the
amount of training data is limited. We explore the appropriate SSL tasks that
can be optimized alongside the primary task, the training schemes for these
tasks, and the data scale at which they can be most effective. Our findings
reveal that SSAT is a powerful technique that enables ViTs to leverage the
unique characteristics of both the self-supervised and primary tasks, achieving
better performance than typical ViTs pre-training with SSL and fine-tuning
sequentially. Our experiments, conducted on 10 datasets, demonstrate that SSAT
significantly improves ViT performance while reducing carbon footprint. We also
confirm the effectiveness of SSAT in the video domain for deepfake detection,
showcasing its generalizability. Our code is available at
https://github.com/dominickrei/Limited-data-vits.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいてユビキタスになった。
彼らの成功にもかかわらず、ViTには誘導バイアスがないため、限られたデータでトレーニングすることは難しい。
この課題に対処するために、先行研究では、自己教師付き学習(SSL)と微調整を順次行うViTのトレーニングを提案する。
しかし,訓練データの量に制限がある場合には,主タスクと自己監督補助タスク(SSAT)を共同最適化することは驚くほど有益である。
我々は、主要なタスクと並行して最適化できる適切なSSLタスク、これらのタスクのトレーニングスキーム、そしてそれらが最も効果的であるデータスケールについて検討する。
以上の結果から,SSATは自己教師型タスクとプライマリタスクの両方の特長を活用できる強力な技術であり,SSLの事前トレーニングや微調整による微調整よりも優れた性能を実現していることがわかった。
実験では, 炭素フットプリントを低減しつつ, SSAT が ViT 性能を大幅に向上することを示した。
また,ビデオ領域におけるSSATの有効性を確認し,その一般化性を示す。
私たちのコードはhttps://github.com/dominickrei/limited-data-vitsで利用可能です。
関連論文リスト
- Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis [38.074487843137064]
本稿では,教師付き事前学習型視覚変換器(ViTs)と従来のニューラルネットワーク(ConvNets)とを比較し,顔深度画像やビデオの検出に有効であることを示す。
これは、特に限られたトレーニングデータを用いて、一般化と説明可能性を改善する可能性について検討する。
SSL ViTsを利用して、平易なデータによるディープフェイク検出と部分的な微調整を行い、注意機構を介してディープフェイク検出と説明可能性に匹敵する適応性を見出す。
論文 参考訳(メタデータ) (2024-05-01T07:16:49Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets [30.178427266135756]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクの顕著なアーキテクチャとして登場した。
ViTは事前トレーニングに大量のデータを必要とする。
DeiT-LTを導入し、長い尾のデータセットのスクラッチからViTをトレーニングする問題に対処する。
論文 参考訳(メタデータ) (2024-04-03T17:58:21Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Meta-attention for ViT-backed Continual Learning [35.31816553097367]
視覚変換器(ViT)はコンピュータビジョンの分野を徐々に支配している。
ViTは、CNNベースの連続学習に簡単に適用すれば、深刻なパフォーマンス劣化に悩まされる可能性がある。
学習済みのタスクのパフォーマンスを犠牲にすることなく、トレーニング済みのViTを新しいタスクに適用するためのMeta-Atention(MEAT)を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:58:39Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。