論文の概要: Pre-training of Lightweight Vision Transformers on Small Datasets with
Minimally Scaled Images
- arxiv url: http://arxiv.org/abs/2402.03752v1
- Date: Tue, 6 Feb 2024 06:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:05:26.270201
- Title: Pre-training of Lightweight Vision Transformers on Small Datasets with
Minimally Scaled Images
- Title(参考訳): 小型画像を用いた小型データセットにおける軽量ビジョントランスの事前学習
- Authors: Jen Hong Tan
- Abstract要約: 純視覚変換器(ViT)は、マスク付きオートエンコーダ技術を用いて、画像スケーリングを最小限にすることで、事前トレーニングにより優れた性能を達成することができる。
CIFAR-10とCIFAR-100データセットの実験では、パラメータが365万未満のViTモデルと、乗算累積(MAC)数が0.27G未満であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can a lightweight Vision Transformer (ViT) match or exceed the performance of
Convolutional Neural Networks (CNNs) like ResNet on small datasets with small
image resolutions? This report demonstrates that a pure ViT can indeed achieve
superior performance through pre-training, using a masked auto-encoder
technique with minimal image scaling. Our experiments on the CIFAR-10 and
CIFAR-100 datasets involved ViT models with fewer than 3.65 million parameters
and a multiply-accumulate (MAC) count below 0.27G, qualifying them as
'lightweight' models. Unlike previous approaches, our method attains
state-of-the-art performance among similar lightweight transformer-based
architectures without significantly scaling up images from CIFAR-10 and
CIFAR-100. This achievement underscores the efficiency of our model, not only
in handling small datasets but also in effectively processing images close to
their original scale.
- Abstract(参考訳): 軽量ビジョントランスフォーマー(ViT)は、小さな画像解像度のデータセット上で、ResNetのような畳み込みニューラルネットワーク(CNN)のパフォーマンスにマッチするか、超えるか?
本報告では,マスク付きオートエンコーダによる画像スケーリングの最小化により,プリトレーニングにより純粋なViTが優れた性能を発揮することを示す。
CIFAR-10とCIFAR-100データセットの実験では、パラメータが365万未満のViTモデルと、乗算累積(MAC)数が0.27G未満で、これらを「軽量」モデルとみなした。
従来の手法とは異なり、CIFAR-10やCIFAR-100の画像を著しくスケールアップすることなく、類似の軽量トランスフォーマーベースアーキテクチャの最先端性能を実現する。
この成果は、小さなデータセットを扱うだけでなく、元のスケールに近い画像を効果的に処理する上でも、我々のモデルの効率を裏付けるものである。
関連論文リスト
- Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets [11.95214938154427]
Vision Transformer (ViT)は、イメージをパッチに分割することで、グローバルな情報をキャプチャする。
ViTは、画像やビデオデータセットのトレーニング中に誘導バイアスを欠く。
本稿では,ViTモデルのショートカットとして,軽量なDepth-Wise Convolutionモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-28T04:23:40Z) - Sparse then Prune: Toward Efficient Vision Transformers [2.191505742658975]
Vision Transformerは自然言語処理におけるTransformerモデルの成功に触発されたディープラーニングモデルである。
視力変換器にスパース正規化を適用すると、精度が0.12%向上する。
スパース正規化を伴うモデルにプルーニングを適用すると、さらによい結果が得られる。
論文 参考訳(メタデータ) (2023-07-22T05:43:33Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。