Fugu-MT 論文翻訳(概要): Transformer in Convolutional Neural Networks

論文の概要: Transformer in Convolutional Neural Networks

arxiv url: http://arxiv.org/abs/2106.03180v2
Date: Wed, 9 Jun 2021 07:23:14 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-13 12:36:24.700835
Title: Transformer in Convolutional Neural Networks
Title（参考訳）: 畳み込みニューラルネットワークにおけるトランスフォーマー
Authors: Yun Liu, Guolei Sun, Yu Qiu, Le Zhang, Ajad Chhatkuli, Luc Van Gool
Abstract要約: マルチヘッド自己認識における高計算・空間複雑さに起因する視覚変換器の低効率欠陥に対処する。本稿では階層型MHSA(Hierarchical MHSA)を提案する。実験により、TransCNNは画像認識の最先端の精度を達成することが示された。
参考スコア（独自算出の注目度）: 78.73499034871604
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We tackle the low-efficiency flaw of vision transformer caused by the high computational/space complexity in Multi-Head Self-Attention (MHSA). To this end, we propose the Hierarchical MHSA (H-MHSA), whose representation is computed in a hierarchical manner. Specifically, our H-MHSA first learns feature relationships within small grids by viewing image patches as tokens. Then, small grids are merged into larger ones, within which feature relationship is learned by viewing each small grid at the preceding step as a token. This process is iterated to gradually reduce the number of tokens. The H-MHSA module is readily pluggable into any CNN architectures and amenable to training via backpropagation. We call this new backbone TransCNN, and it essentially inherits the advantages of both transformer and CNN. Experiments demonstrate that TransCNN achieves state-of-the-art accuracy for image recognition. Code and pretrained models are available at https://github.com/yun-liu/TransCNN. This technical report will keep updating by adding more experiments.
Abstract（参考訳）: マルチヘッド・セルフアテンション(mhsa)における高い計算量/空間複雑性に起因する視覚トランスフォーマーの低効率な欠陥に取り組む。この目的のために,階層的手法で表現を計算した階層的mhsa (h-mhsa) を提案する。具体的には、H-MHSAはまず、画像パッチをトークンとして見ることによって、小さなグリッド内の特徴関係を学習する。そして、小さなグリッドをより大きなグリッドにマージし、前ステップで各小さなグリッドをトークンとして見ることによって特徴関係を学習する。このプロセスを繰り返してトークンの数を徐々に減らします。 H-MHSAモジュールは任意のCNNアーキテクチャに簡単にプラグイン可能で、バックプロパゲーションによるトレーニングが可能である。我々はこの新しいバックボーンTransCNNと呼び、基本的にトランスフォーマーとCNNの両方の利点を継承します。実験により、TransCNNは画像認識の最先端の精度を達成することが示された。コードと事前訓練されたモデルはhttps://github.com/yun-liu/TransCNN.comで入手できる。このテクニカルレポートは、さらなる実験を追加して更新を続ける。

関連論文リスト

Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文参考訳（メタデータ） (2024-11-21T18:59:08Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
トランスフォーマーアーキテクチャにおけるMHSAの代替として,Fibottentionと呼ばれる新しいマルチヘッド自己アテンション(MHSA)モデルを提案する。フィボテンションはデータ効率が高く、標準的なMHSAよりも大量のトークンを処理するのに適している。拡張されたフィボナッチ配列に基づいて、構造化されたスパークアテンションを採用しており、ユニークなことに、アテンションヘッドによって異なる。
論文参考訳（メタデータ） (2024-06-27T17:59:40Z)
Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文参考訳（メタデータ） (2022-11-21T03:48:13Z)
MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。 MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-08-31T06:29:27Z)
Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。 SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文参考訳（メタデータ） (2021-11-30T08:08:47Z)
Global Interaction Modelling in Vision Transformer via Super Tokens [20.700750237972155]
ウィンドウベースのローカルアテンションは、最近の研究で採用されている主要なテクニックの1つである。本稿では、ローカルウィンドウとスーパートークンと呼ばれる特別なトークンを自己注意のために採用した新しい等方的アーキテクチャを提案する。 Imagenet-1Kの標準画像分類では、提案されたSuper tokens based transformer (STT-S25) は83.5%の精度を実現している。
論文参考訳（メタデータ） (2021-11-25T16:22:57Z)
P2T: Pyramid Pooling Transformer for Scene Understanding [62.41912463252468]
私たちはP2Tと呼ばれる下流タスク指向のトランスネットワークを構築します。プールベースのMHSAを組み込んで、P2Tと呼ばれる下流タスク指向のトランスネットワークを構築しました。
論文参考訳（メタデータ） (2021-06-22T18:28:52Z)
OmniNet: Omnidirectional Representations from Transformers [49.23834374054286]
本稿ではトランスフォーマー(OmniNet)からのOmnidirect Representationsを提案する。 OmniNetでは、厳密に水平な受容フィールドを維持する代わりに、各トークンはネットワーク全体のすべてのトークンに参加することができる。自動回帰言語モデリング、機械翻訳、長距離アリーナ(LRA)、画像認識に関する実験が行われている。
論文参考訳（メタデータ） (2021-03-01T15:31:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。