論文の概要: Transformer in Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2106.03180v2
- Date: Wed, 9 Jun 2021 07:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 12:36:24.700835
- Title: Transformer in Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークにおけるトランスフォーマー
- Authors: Yun Liu, Guolei Sun, Yu Qiu, Le Zhang, Ajad Chhatkuli, Luc Van Gool
- Abstract要約: マルチヘッド自己認識における高計算・空間複雑さに起因する視覚変換器の低効率欠陥に対処する。
本稿では階層型MHSA(Hierarchical MHSA)を提案する。
実験により、TransCNNは画像認識の最先端の精度を達成することが示された。
- 参考スコア(独自算出の注目度): 78.73499034871604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the low-efficiency flaw of vision transformer caused by the high
computational/space complexity in Multi-Head Self-Attention (MHSA). To this
end, we propose the Hierarchical MHSA (H-MHSA), whose representation is
computed in a hierarchical manner. Specifically, our H-MHSA first learns
feature relationships within small grids by viewing image patches as tokens.
Then, small grids are merged into larger ones, within which feature
relationship is learned by viewing each small grid at the preceding step as a
token. This process is iterated to gradually reduce the number of tokens. The
H-MHSA module is readily pluggable into any CNN architectures and amenable to
training via backpropagation. We call this new backbone TransCNN, and it
essentially inherits the advantages of both transformer and CNN. Experiments
demonstrate that TransCNN achieves state-of-the-art accuracy for image
recognition. Code and pretrained models are available at
https://github.com/yun-liu/TransCNN. This technical report will keep updating
by adding more experiments.
- Abstract(参考訳): マルチヘッド・セルフアテンション(mhsa)における高い計算量/空間複雑性に起因する視覚トランスフォーマーの低効率な欠陥に取り組む。
この目的のために,階層的手法で表現を計算した階層的mhsa (h-mhsa) を提案する。
具体的には、H-MHSAはまず、画像パッチをトークンとして見ることによって、小さなグリッド内の特徴関係を学習する。
そして、小さなグリッドをより大きなグリッドにマージし、前ステップで各小さなグリッドをトークンとして見ることによって特徴関係を学習する。
このプロセスを繰り返してトークンの数を徐々に減らします。
H-MHSAモジュールは任意のCNNアーキテクチャに簡単にプラグイン可能で、バックプロパゲーションによるトレーニングが可能である。
我々はこの新しいバックボーンTransCNNと呼び、基本的にトランスフォーマーとCNNの両方の利点を継承します。
実験により、TransCNNは画像認識の最先端の精度を達成することが示された。
コードと事前訓練されたモデルはhttps://github.com/yun-liu/TransCNN.comで入手できる。
このテクニカルレポートは、さらなる実験を追加して更新を続ける。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Global Interaction Modelling in Vision Transformer via Super Tokens [20.700750237972155]
ウィンドウベースのローカルアテンションは、最近の研究で採用されている主要なテクニックの1つである。
本稿では、ローカルウィンドウとスーパートークンと呼ばれる特別なトークンを自己注意のために採用した新しい等方的アーキテクチャを提案する。
Imagenet-1Kの標準画像分類では、提案されたSuper tokens based transformer (STT-S25) は83.5%の精度を実現している。
論文 参考訳(メタデータ) (2021-11-25T16:22:57Z) - P2T: Pyramid Pooling Transformer for Scene Understanding [62.41912463252468]
私たちはP2Tと呼ばれる下流タスク指向のトランスネットワークを構築します。
プールベースのMHSAを組み込んで、P2Tと呼ばれる下流タスク指向のトランスネットワークを構築しました。
論文 参考訳(メタデータ) (2021-06-22T18:28:52Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - OmniNet: Omnidirectional Representations from Transformers [49.23834374054286]
本稿ではトランスフォーマー(OmniNet)からのOmnidirect Representationsを提案する。
OmniNetでは、厳密に水平な受容フィールドを維持する代わりに、各トークンはネットワーク全体のすべてのトークンに参加することができる。
自動回帰言語モデリング、機械翻訳、長距離アリーナ(LRA)、画像認識に関する実験が行われている。
論文 参考訳(メタデータ) (2021-03-01T15:31:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。