論文の概要: DualToken-ViT: Position-aware Efficient Vision Transformer with Dual
Token Fusion
- arxiv url: http://arxiv.org/abs/2309.12424v1
- Date: Thu, 21 Sep 2023 18:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 17:14:25.175558
- Title: DualToken-ViT: Position-aware Efficient Vision Transformer with Dual
Token Fusion
- Title(参考訳): Dual Token-ViT:Dual Token Fusionを用いた位置認識高能率視覚変換器
- Authors: Zhenzhen Chu, Jiayu Chen, Cen Chen, Chengyu Wang, Ziheng Wu, Jun
Huang, Weining Qian
- Abstract要約: 自己注意に基づく視覚変換器(ViT)はコンピュータビジョンにおいて高い競争力を持つアーキテクチャとして登場した。
本稿では,DualToken-ViTと呼ばれる軽量かつ効率的な視覚変換器モデルを提案する。
- 参考スコア(独自算出の注目度): 25.092756016673235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention-based vision transformers (ViTs) have emerged as a highly
competitive architecture in computer vision. Unlike convolutional neural
networks (CNNs), ViTs are capable of global information sharing. With the
development of various structures of ViTs, ViTs are increasingly advantageous
for many vision tasks. However, the quadratic complexity of self-attention
renders ViTs computationally intensive, and their lack of inductive biases of
locality and translation equivariance demands larger model sizes compared to
CNNs to effectively learn visual features. In this paper, we propose a
light-weight and efficient vision transformer model called DualToken-ViT that
leverages the advantages of CNNs and ViTs. DualToken-ViT effectively fuses the
token with local information obtained by convolution-based structure and the
token with global information obtained by self-attention-based structure to
achieve an efficient attention structure. In addition, we use position-aware
global tokens throughout all stages to enrich the global information, which
further strengthening the effect of DualToken-ViT. Position-aware global tokens
also contain the position information of the image, which makes our model
better for vision tasks. We conducted extensive experiments on image
classification, object detection and semantic segmentation tasks to demonstrate
the effectiveness of DualToken-ViT. On the ImageNet-1K dataset, our models of
different scales achieve accuracies of 75.4% and 79.4% with only 0.5G and 1.0G
FLOPs, respectively, and our model with 1.0G FLOPs outperforms LightViT-T using
global tokens by 0.7%.
- Abstract(参考訳): vits(self-attention-based vision transformers)はコンピュータビジョンにおける競争性の高いアーキテクチャである。
畳み込みニューラルネットワーク(CNN)とは異なり、ViTはグローバルな情報共有が可能である。
vitの様々な構造が開発されると、vitは多くの視覚タスクに有利になる。
しかし、自己注意の二次的な複雑さは、ViTsを計算的に集約し、局所性や翻訳等価性の帰納的バイアスの欠如は、視覚的特徴を効果的に学習するためにCNNよりも大きなモデルサイズを要求する。
本稿では,CNNとViTの利点を生かしたDualToken-ViTと呼ばれる軽量かつ効率的なビジョントランスフォーマモデルを提案する。
dualtoken-vitは、畳み込み型構造で得られた局所情報と、自己着脱型構造で得られるグローバル情報とを効果的に融合させ、効率的な注意構造を実現する。
さらに,全段階にわたって位置認識型グローバルトークンを使用してグローバル情報を強化し,DualToken-ViTの効果をさらに強化する。
位置認識されたグローバルトークンは画像の位置情報も含んでいるため、視覚タスクではモデルがより良くなります。
画像分類,物体検出,意味セグメンテーションに関する広範な実験を行い,dualtoken-vitの有効性を実証した。
ImageNet-1Kデータセットでは,それぞれ0.5Gと1.0GのFLOPで75.4%,79.4%の精度を達成し,1.0GのFLOPでは0.7%のグローバルトークンでLightViT-Tを上回った。
関連論文リスト
- Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。
その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。
構築した自己意識を近似するFibottention Architectureを提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - FasterViT: Fast Vision Transformers with Hierarchical Attention [63.50580266223651]
我々は、コンピュータビジョン(CV)アプリケーションのための高速スループットに焦点を当てた、FasterViTという名前のハイブリッドCNN-ViTニューラルネットワークの新たなファミリーを設計する。
新たに導入した階層的注意(HAT)アプローチは,グローバルな自己意識を2次複雑性で分解し,計算コストを削減した多面的注意に分解する。
論文 参考訳(メタデータ) (2023-06-09T18:41:37Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Grafting Vision Transformers [42.71480918208436]
ビジョントランスフォーマー(ViT)は近年、多くのコンピュータビジョンタスクにおける最先端技術となっている。
GrafTはグローバルな依存関係とネットワーク全体のマルチスケール情報を考慮している。
任意の深さで分岐する柔軟性があり、バックボーンのパラメータと計算の大部分を共有できる。
論文 参考訳(メタデータ) (2022-10-28T07:07:13Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Discrete Representations Strengthen Vision Transformer Robustness [43.821734467553554]
Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。
本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。
実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
論文 参考訳(メタデータ) (2021-11-20T01:49:56Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。