論文の概要: HSViT: Horizontally Scalable Vision Transformer
- arxiv url: http://arxiv.org/abs/2404.05196v2
- Date: Tue, 16 Jul 2024 01:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 21:08:58.810231
- Title: HSViT: Horizontally Scalable Vision Transformer
- Title(参考訳): HSViT:水平にスケーラブルな視覚変換器
- Authors: Chenhao Xu, Chang-Tsun Li, Chee Peng Lim, Douglas Creighton,
- Abstract要約: Vision Transformer (ViT) は大規模データセットの事前トレーニングが必要であり、パフォーマンスが向上する。
本稿では,新しい水平方向拡張型ビジョントランス (HSViT) 方式を提案する。
HSViTは、小さなデータセットの最先端スキームよりも最大10%高いトップ1精度を達成する。
- 参考スコア(独自算出の注目度): 16.46308352393693
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Due to its deficiency in prior knowledge (inductive bias), Vision Transformer (ViT) requires pre-training on large-scale datasets to perform well. Moreover, the growing layers and parameters in ViT models impede their applicability to devices with limited computing resources. To mitigate the aforementioned challenges, this paper introduces a novel horizontally scalable vision transformer (HSViT) scheme. Specifically, a novel image-level feature embedding is introduced to ViT, where the preserved inductive bias allows the model to eliminate the need for pre-training while outperforming on small datasets. Besides, a novel horizontally scalable architecture is designed, facilitating collaborative model training and inference across multiple computing devices. The experimental results depict that, without pre-training, HSViT achieves up to 10% higher top-1 accuracy than state-of-the-art schemes on small datasets, while providing existing CNN backbones up to 3.1% improvement in top-1 accuracy on ImageNet. The code is available at https://github.com/xuchenhao001/HSViT.
- Abstract(参考訳): 事前知識(帰納バイアス)が不足しているため、ViT(Vision Transformer)は大規模データセットの事前トレーニングを必要としている。
さらに、ViTモデルの成長するレイヤとパラメータは、限られたコンピューティングリソースを持つデバイスへの適用性を妨げている。
上記の課題を緩和するため,本稿では,新しい水平拡張型視覚変換器(HSViT)方式を提案する。
具体的には、ViTに新しいイメージレベルの機能埋め込みが導入され、保存された帰納バイアスにより、小さなデータセットでパフォーマンスを向上しながら、事前トレーニングの必要性を排除できる。
さらに、水平にスケーラブルな新しいアーキテクチャが設計され、複数のコンピューティングデバイス間で協調的なモデルトレーニングと推論を容易にする。
実験結果は、事前トレーニングなしで、HSViTは、小さなデータセット上の最先端のスキームよりも最大10%高いトップ1精度を達成する一方で、ImageNet上で既存のCNNバックボーンを最大3.1%改善することを示している。
コードはhttps://github.com/xuchenhao001/HSViTで入手できる。
関連論文リスト
- HTR-VT: Handwritten Text Recognition with Vision Transformer [7.997204893256558]
手書き文字認識における視覚変換器(ViT)の適用について検討する。
以前のトランスフォーマーベースのモデルでは、外部データや大規模なデータセットの広範な事前トレーニングが必要だった。
元のパッチ埋め込みの代わりに特徴抽出にConAwareal Neural Network(CNN)を導入し,シャープネス最小化(SAM)エンコーダを用いることで,モデルがフラットなミニマに向けて収束することを保証している。
論文 参考訳(メタデータ) (2024-09-13T06:46:23Z) - Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文 参考訳(メタデータ) (2024-08-12T07:03:35Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。