論文の概要: Vision Transformer for Small-Size Datasets
- arxiv url: http://arxiv.org/abs/2112.13492v1
- Date: Mon, 27 Dec 2021 03:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 15:58:21.848609
- Title: Vision Transformer for Small-Size Datasets
- Title(参考訳): 小型データセットのための視覚トランスフォーマー
- Authors: Seung Hoon Lee, Seunghyun Lee, Byung Cheol Song
- Abstract要約: 本稿では,SPT(Shifted Patch Tokenization)とLSA(Locality Self-Attention)を提案する。
SPTとLSAは、局所性帰納バイアスの欠如を効果的に解決し、小さなデータセットでもスクラッチから学習することができる。
実験の結果、SPTとLSAの両方をViTに適用すると、Tiny-ImageNetでは平均2.96%の性能向上が見られた。
- 参考スコア(独自算出の注目度): 23.855575212090365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the Vision Transformer (ViT), which applied the transformer
structure to the image classification task, has outperformed convolutional
neural networks. However, the high performance of the ViT results from
pre-training using a large-size dataset such as JFT-300M, and its dependence on
a large dataset is interpreted as due to low locality inductive bias. This
paper proposes Shifted Patch Tokenization (SPT) and Locality Self-Attention
(LSA), which effectively solve the lack of locality inductive bias and enable
it to learn from scratch even on small-size datasets. Moreover, SPT and LSA are
generic and effective add-on modules that are easily applicable to various
ViTs. Experimental results show that when both SPT and LSA were applied to the
ViTs, the performance improved by an average of 2.96% in Tiny-ImageNet, which
is a representative small-size dataset. Especially, Swin Transformer achieved
an overwhelming performance improvement of 4.08% thanks to the proposed SPT and
LSA.
- Abstract(参考訳): 近年、画像分類タスクにトランス構造を適用した視覚変換器(ViT)は、畳み込みニューラルネットワークよりも優れています。
しかし、JFT-300Mのような大規模データセットを用いた事前学習によるViTの性能向上は、局所性誘導バイアスの低いため、大規模なデータセットへの依存を解釈する。
本稿では、局所性帰納バイアスの欠如を効果的に解決し、小規模なデータセットでもスクラッチから学習できるシフトトパッチトークン化(SPT)と局所性自己認識(LSA)を提案する。
さらに、SPT と LSA は、様々な ViT に容易に適用可能な汎用的で効果的なアドオンモジュールである。
実験の結果、sptとlsaの両方をvitsに適用すると、代表的な小型データセットであるtiny-imagenetでは、パフォーマンスが平均2.96%向上した。
特にSwin TransformerはSPTとLSAによって4.08%の性能向上を達成した。
関連論文リスト
- UL-VIO: Ultra-lightweight Visual-Inertial Odometry with Noise Robust Test-time Adaptation [12.511829774226113]
視覚-慣性整合性に基づくテスト時間適応(TTA)が可能な超軽量 (1M) 視覚慣性オドメトリー (VIO) ネットワークを提案する。
KITTIデータセットで1分間のエラー増加 – 1% – で、最先端のネットワークサイズよりも36倍小さなネットワークサイズを実現している。
論文 参考訳(メタデータ) (2024-09-19T22:24:14Z) - GenFormer -- Generated Images are All You Need to Improve Robustness of Transformers on Small Datasets [11.343905946690352]
我々は、生成した画像を利用したデータ拡張戦略であるGenFormerを提案し、小型画像分類タスクにおける変換器の精度とロバスト性を改善する。
総合評価では、Tiny ImageNetの新たなテストセットとして、Tiny ImageNetV2, -R, -Aを提案する。
我々は,訓練データに制限のある困難条件下でのアプローチの有効性を実証し,精度と堅牢性の両方において有意な改善が示された。
論文 参考訳(メタデータ) (2024-08-26T09:26:08Z) - Explicitly Increasing Input Information Density for Vision Transformers
on Small Datasets [26.257612622358614]
ビジョントランスフォーマーはビジョンタスクにおけるビジョントランスフォーマー(ViT)の実装が成功して以来、近年多くの注目を集めている。
本稿では,周波数領域における入力情報密度を明示的に向上することを提案する。
5つの小規模データセットに対して提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2022-10-25T20:24:53Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。