論文の概要: Locality Guidance for Improving Vision Transformers on Tiny Datasets
- arxiv url: http://arxiv.org/abs/2207.10026v1
- Date: Wed, 20 Jul 2022 16:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:55:45.575363
- Title: Locality Guidance for Improving Vision Transformers on Tiny Datasets
- Title(参考訳): 小さなデータセット上での視覚トランスフォーマー改善のための局所性指導
- Authors: Kehan Li, Runyi Yu, Zhennan Wang, Li Yuan, Guoli Song, Jie Chen
- Abstract要約: ビジョントランスフォーマー(VT)アーキテクチャはコンピュータビジョンではトレンドになりつつあるが、純粋なVTモデルは小さなデータセットではパフォーマンスが悪い。
本稿では,小さなデータセット上でのVTの性能向上のための局所性ガイダンスを提案する。
- 参考スコア(独自算出の注目度): 17.352384588114838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the Vision Transformer (VT) architecture is becoming trendy in computer
vision, pure VT models perform poorly on tiny datasets. To address this issue,
this paper proposes the locality guidance for improving the performance of VTs
on tiny datasets. We first analyze that the local information, which is of
great importance for understanding images, is hard to be learned with limited
data due to the high flexibility and intrinsic globality of the self-attention
mechanism in VTs. To facilitate local information, we realize the locality
guidance for VTs by imitating the features of an already trained convolutional
neural network (CNN), inspired by the built-in local-to-global hierarchy of
CNN. Under our dual-task learning paradigm, the locality guidance provided by a
lightweight CNN trained on low-resolution images is adequate to accelerate the
convergence and improve the performance of VTs to a large extent. Therefore,
our locality guidance approach is very simple and efficient, and can serve as a
basic performance enhancement method for VTs on tiny datasets. Extensive
experiments demonstrate that our method can significantly improve VTs when
training from scratch on tiny datasets and is compatible with different kinds
of VTs and datasets. For example, our proposed method can boost the performance
of various VTs on tiny datasets (e.g., 13.07% for DeiT, 8.98% for T2T and 7.85%
for PVT), and enhance even stronger baseline PVTv2 by 1.86% to 79.30%, showing
the potential of VTs on tiny datasets. The code is available at
https://github.com/lkhl/tiny-transformers.
- Abstract(参考訳): vision transformer (vt) アーキテクチャはコンピュータビジョンのトレンドになりつつあるが、純粋なvtモデルは小さなデータセットでは性能が悪い。
そこで本研究では,小さなデータセット上でのVTの性能向上のための局所性ガイダンスを提案する。
まず,VTにおける自己認識機構の柔軟性と本質的なグローバル性のため,画像を理解する上で非常に重要である局所的情報を限られたデータで学習することは困難である。
ローカル情報を容易にするために,cnnのローカルからグローバルへの階層構造にインスパイアされた,すでに訓練済みの畳み込みニューラルネットワーク(cnn)の特徴を模倣して,vtsの局所性指導を実現する。
デュアルタスク学習のパラダイムでは,低解像度画像で訓練された軽量cnnによる局所性指導は,vtsの収束を加速し,性能を大幅に向上させるのに十分である。
したがって、我々のローカリティガイダンスアプローチは非常にシンプルで効率的であり、小さなデータセット上でのVTの基本的なパフォーマンス向上手法として機能する。
大規模な実験では、小さなデータセットをスクラッチからトレーニングすることでVTを大幅に改善し、異なる種類のVTやデータセットと互換性があることが示されている。
例えば、提案手法は、小さなデータセット上での様々なVTの性能(例えば、DeiTが13.07%、T2Tが8.98%、PVTが7.85%)を向上し、さらに強力なベースラインPVTv2を1.86%から79.30%向上させ、小さなデータセット上でのVTの可能性を示している。
コードはhttps://github.com/lkhl/tiny-transformersで入手できる。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文 参考訳(メタデータ) (2024-08-12T07:03:35Z) - Scattering Vision Transformer: Spectral Mixing Matters [3.0665715162712837]
本稿では,これらの課題に対処するために,Scattering Vision Transformer (SVT) という新しいアプローチを提案する。
SVTにはスペクトル散乱ネットワークが組み込まれており、複雑な画像の詳細をキャプチャすることができる。
SVTはImageNetデータセットの最先端のパフォーマンスを達成し、多くのパラメータとFLOPSを大幅に削減した。
論文 参考訳(メタデータ) (2023-11-02T15:24:23Z) - Enhancing Performance of Vision Transformers on Small Datasets through
Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。
本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。
提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文 参考訳(メタデータ) (2023-05-15T11:23:18Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。