論文の概要: ExMobileViT: Lightweight Classifier Extension for Mobile Vision
Transformer
- arxiv url: http://arxiv.org/abs/2309.01310v1
- Date: Mon, 4 Sep 2023 01:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 20:12:57.009519
- Title: ExMobileViT: Lightweight Classifier Extension for Mobile Vision
Transformer
- Title(参考訳): ExMobileViT: モバイルビジョントランス用軽量分類器拡張
- Authors: Gyeongdong Yang, Yungwook Kwon, and Hyunjin Kim
- Abstract要約: 視覚変換器(ViT)は画像分類において優れた結果が得られるという点で非常に魅力的である。
MobileViT-SのようなMobileNetベースのViTモデルが開発されているが、その性能はオリジナルのViTモデルには達していない。
本稿では,モバイル・フレンドリーな視覚変換器の性能向上のための,計算オーバーヘッドの少ない効率的な構造を提案する。
- 参考スコア(独自算出の注目度): 1.1060425537315088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper proposes an efficient structure for enhancing the performance of
mobile-friendly vision transformer with small computational overhead. The
vision transformer (ViT) is very attractive in that it reaches outperforming
results in image classification, compared to conventional convolutional neural
networks (CNNs). Due to its need of high computational resources,
MobileNet-based ViT models such as MobileViT-S have been developed. However,
their performance cannot reach the original ViT model. The proposed structure
relieves the above weakness by storing the information from early attention
stages and reusing it in the final classifier. This paper is motivated by the
idea that the data itself from early attention stages can have important
meaning for the final classification. In order to reuse the early information
in attention stages, the average pooling results of various scaled features
from early attention stages are used to expand channels in the fully-connected
layer of the final classifier. It is expected that the inductive bias
introduced by the averaged features can enhance the final performance. Because
the proposed structure only needs the average pooling of features from the
attention stages and channel expansions in the final classifier, its
computational and storage overheads are very small, keeping the benefits of
low-cost MobileNet-based ViT (MobileViT). Compared with the original MobileViTs
on the ImageNet dataset, the proposed ExMobileViT has noticeable accuracy
enhancements, having only about 5% additional parameters.
- Abstract(参考訳): 本稿では,モバイルフレンドリーな視覚変換器の性能向上のための効率的な構造を提案する。
視覚変換器(ViT)は、従来の畳み込みニューラルネットワーク(CNN)と比較して、画像分類において優れた結果が得られるという点で非常に魅力的である。
高い計算資源を必要とするため、MobileViT-SのようなMobileNetベースのViTモデルが開発されている。
しかし、その性能はオリジナルのViTモデルには達しない。
提案手法は, 初期注意段階から情報を保存し, 最終分類器で再利用することで, 上記の弱点を緩和する。
本論文は,早期注意段階のデータ自体が最終分類に重要な意味を持つという考えから動機付けられたものである。
注意段階における初期情報を再利用するために、初期注意段階からの様々な特徴量の平均プール結果を用いて、最終分類器の完全連結層内のチャネルを拡大する。
平均的特徴によって引き起こされる帰納バイアスが最終性能を高めることが期待できる。
提案する構造は,注意段階からの平均的な機能プールと最終分類器のチャネル拡張のみを必要とするため,計算オーバーヘッドとストレージオーバーヘッドが非常に小さく,低コストなmobilenetベースのvit (mobilevit) のメリットを享受できる。
ImageNetデータセットのオリジナルのMobileViTと比較すると、提案されたExMobileViTは、約5%の追加パラメータしか持たない、顕著な精度向上を実現している。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Enhancing Performance of Vision Transformers on Small Datasets through
Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。
本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。
提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文 参考訳(メタデータ) (2023-05-15T11:23:18Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Explicitly Increasing Input Information Density for Vision Transformers
on Small Datasets [26.257612622358614]
ビジョントランスフォーマーはビジョンタスクにおけるビジョントランスフォーマー(ViT)の実装が成功して以来、近年多くの注目を集めている。
本稿では,周波数領域における入力情報密度を明示的に向上することを提案する。
5つの小規模データセットに対して提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2022-10-25T20:24:53Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Bootstrapping ViTs: Towards Liberating Vision Transformers from
Pre-training [29.20567759071523]
ビジョントランスフォーマー(ViT)は急速に発展し、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。
本稿では,上位境界のネットワークアーキテクチャを保ちながら,CNNのインダクティブバイアスをViTに戻す。
CIFAR-10/100 と ImageNet-1k の限られたトレーニングデータによる実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-07T07:56:50Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。