論文の概要、ライセンス

# (参考訳) 畳み込みニューラルネットワークにおけるトランスフォーマー [全文訳有]

Transformer in Convolutional Neural Networks ( http://arxiv.org/abs/2106.03180v2 )

ライセンス: CC BY 4.0
Yun Liu, Guolei Sun, Yu Qiu, Le Zhang, Ajad Chhatkuli, Luc Van Gool(参考訳) マルチヘッド・セルフアテンション(mhsa)における高い計算量/空間複雑性に起因する視覚トランスフォーマーの低効率な欠陥に取り組む。 この目的のために,階層的手法で表現を計算した階層的mhsa (h-mhsa) を提案する。 具体的には、H-MHSAはまず、画像パッチをトークンとして見ることによって、小さなグリッド内の特徴関係を学習する。 そして、小さなグリッドをより大きなグリッドにマージし、前ステップで各小さなグリッドをトークンとして見ることによって特徴関係を学習する。 このプロセスを繰り返してトークンの数を徐々に減らします。 H-MHSAモジュールは任意のCNNアーキテクチャに簡単にプラグイン可能で、バックプロパゲーションによるトレーニングが可能である。 我々はこの新しいバックボーンTransCNNと呼び、基本的にトランスフォーマーとCNNの両方の利点を継承します。 実験により、TransCNNは画像認識の最先端の精度を達成することが示された。 コードと事前訓練されたモデルはhttps://github.com/y un-liu/TransCNN.comで入手できる。 このテクニカルレポートは、さらなる実験を追加して更新を続ける。

We tackle the low-efficiency flaw of vision transformer caused by the high computational/space complexity in Multi-Head Self-Attention (MHSA). To this end, we propose the Hierarchical MHSA (H-MHSA), whose representation is computed in a hierarchical manner. Specifically, our H-MHSA first learns feature relationships within small grids by viewing image patches as tokens. Then, small grids are merged into larger ones, within which feature relationship is learned by viewing each small grid at the preceding step as a token. This process is iterated to gradually reduce the number of tokens. The H-MHSA module is readily pluggable into any CNN architectures and amenable to training via backpropagation. We call this new backbone TransCNN, and it essentially inherits the advantages of both transformer and CNN. Experiments demonstrate that TransCNN achieves state-of-the-art accuracy for image recognition. Code and pretrained models are available at https://github.com/y un-liu/TransCNN. This technical report will keep updating by adding more experiments.
公開日: Wed, 9 Jun 2021 07:23:14 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Transformer in Convolutional Neural Networks 畳み込みニューラルネットワークにおけるトランスフォーマー 0.68
Yun Liu CVL, ETH Zurich ユン・リュー CVL, ETH Zurich 0.66
Switzerland Guolei Sun CVL, ETH Zurich スイス ぐれいサン CVL, ETH Zurich 0.69
Switzerland 1 2 0 2 スイス 1 2 0 2 0.82
n u J 9 ] n u J 9 ] 0.85
V C . s c [ 略称はC。 sc [ 0.50
2 v 0 8 1 3 0 2 v 0 8 1 3 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Yu Qiu Nankai University Yu Qiu 南海大学 0.74
Tianjin, China Le Zhang UESTC 中国天津 Le Zhang UESTC 0.69
Chengdu, China Ajad Chhatkuli CVL, ETH Zurich 中国・成都 Ajad Chhatkuli CVL, ETH Zurich 0.76
Switzerland Abstract Luc Van Gool スイス 概要 Luc Van Gool 0.69
CVL, ETH Zurich CVL, ETH Zurich 0.85
Switzerland We tackle the low-efficiency flaw of vision transformer caused by the high computational/space complexity in Multi-Head Self-Attention (MHSA). スイス マルチヘッド・セルフアテンション(mhsa)における高い計算量/空間複雑性に起因する視覚トランスフォーマーの低効率な欠陥に取り組む。 0.68
To this end, we propose the Hierarchical MHSA (H-MHSA), whose representation is computed in a hierarchical manner. この目的のために,階層的手法で表現を計算した階層的mhsa (h-mhsa) を提案する。 0.64
Specifically, our H-MHSA first learns feature relationships within small grids by viewing image patches as tokens. 具体的には、H-MHSAはまず、画像パッチをトークンとして見ることによって、小さなグリッド内の特徴関係を学習する。 0.46
Then, small grids are merged into larger ones, within which feature relationship is learned by viewing each small grid at the preceding step as a token. そして、小さなグリッドをより大きなグリッドにマージし、前ステップで各小さなグリッドをトークンとして見ることによって特徴関係を学習する。 0.67
This process is iterated to gradually reduce the number of tokens. このプロセスを繰り返してトークンの数を徐々に減らします。 0.77
The H-MHSA module is readily pluggable into any CNN architectures and amenable to training via backpropagation. H-MHSAモジュールは任意のCNNアーキテクチャに簡単にプラグイン可能で、バックプロパゲーションによるトレーニングが可能である。 0.56
We call this new backbone TransCNN, and it essentially inherits the advantages of both transformer and CNN. 我々はこの新しいバックボーンTransCNNと呼び、基本的にトランスフォーマーとCNNの両方の利点を継承します。 0.76
Experiments demonstrate that TransCNN achieves state-of-the-art accuracy for image recognition. 実験により、TransCNNは画像認識の最先端の精度を達成することが示された。 0.46
Code and pretrained models are available at https://github.com/y un-liu/TransCNN. コードと事前訓練されたモデルはhttps://github.com/y un-liu/TransCNN.comで入手できる。 0.39
This technical report will keep updating by adding more experiments. このテクニカルレポートは、さらなる実験を追加して更新を続ける。 0.66
1 Introduction In the last decade, convolutional neural networks (CNN) have been the go-to architecture in computer vision, owing to their powerful capability in learning representations from images/videos [1–11]. 1 はじめに 過去10年間、畳み込みニューラルネットワーク(cnn)は、画像/ビデオから表現を学習する能力が強力であるため、コンピュータビジョンにおけるゴートアーキテクチャであった [1-11]。 0.71
Meanwhile, in another field of natural language processing (NLP), the transformer architecture [12] has been the de-facto standard to handle long-range dependencies [13, 14]. 一方、別の分野の自然言語処理 (nlp) では、transformer architecture [12] が長期依存 [13, 14] を処理するデファクトスタンダードとなっている。 0.80
Transformer relies heavily on self-attention to model global relationships of sequence data. Transformerは、シーケンスデータのグローバルな関係をモデル化するために、自己アテンションに大きく依存する。 0.55
Although global modelling is also essential for vision tasks, the 2D/3D structures of vision data make it less straightforward to apply transformers therein. グローバルモデリングは視覚タスクにも不可欠であるが、視覚データの2d/3d構造はトランスフォーマーを適用するのが容易ではない。 0.66
This predicament was recently broken by Dosovitskiy et al [15], by applying a pure transformer to sequences of image patches. この処方は、画像パッチのシーケンスに純粋なトランスフォーマーを適用することで、dosovitskiyらによって最近壊された。 0.56
Motivated by [15], a large amount of literature on vision transformer has emerged to resolve the problems caused by the domain gap between computer vision and NLP [16–20]. コンピュータビジョンと NLP [16–20] の領域ギャップに起因する問題を解くために, [15] に動機付けられた大量の視覚変換器に関する文献が出現している。 0.75
From our point of view, one major problem of vision transformers is that the sequence length of image patches is much longer than that of tokens (words) in an NLP application, thus leading to high computational/space complexity when computing the Multi-Head Self-Attention (MHSA). 我々の見解では、視覚変換器の大きな問題は、画像パッチのシーケンス長が、NLPアプリケーションにおけるトークン(ワード)のシーケンス長よりもはるかに長いため、マルチヘッド自己認識(MHSA)を計算する場合、計算・空間の複雑さが高いことである。 0.67
Some efforts have been dedicated to resolving this problem. この問題の解決にいくつかの努力が注がれている。 0.61
PVT [18] and MViT [20] downsample the feature to compute attention in a reduced length at the cost of losing contextual details. PVT [18] と MViT [20] は、コンテキストの詳細を失うコストを犠牲にして、その特徴を小さくして注意を計算します。 0.66
Swin Transformer [17] computes attention within small windows to model local relationships. swin transformer [17]は小さなウィンドウ内の注意を計算し、ローカルな関係をモデル化する。 0.59
It gradually enlarges the receptive field through shifting windows and stacking more layers. ウィンドウをシフトさせ、さらにレイヤを積み重ねることで、徐々に受容フィールドを拡大します。 0.59
From this point of view, Swin Transformer [17] may still be suboptimal because it works in a similar manner to CNN and needs many layers to model long-range dependencies [15]. この観点から見れば、Swin Transformer [17] は CNN と同様の方法で動作し、長距離依存をモデル化するために多くのレイヤを必要とするため、まだサブ最適化されているかもしれません [15]。
訳抜け防止モード: この観点から見ると、Swin Transformer [17 ] は CNN と同様の方法で機能するため、まだ最適ではないかもしれない。 多くの層が必要で to model long - range dependency [ 15 ].
0.77
Instead of computing the attention score in the spatial dimension, 空間的な次元で注意スコアを計算する代わりに 0.73
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
CoaT [19] computes attention in a channel-wise manner and thus may be less effective in modelling global feature dependencies [21]. CoaT[19]はチャネル的に注意を計算し、グローバルな機能依存のモデル化にはあまり効果がないかもしれない。 0.71
We propose Hierarchical MHSA (H-MHSA) to make self-attention computation in transformer flexible and efficient. 変換器の自己アテンション計算を柔軟かつ効率的にするための階層型MHSA(H-MHSA)を提案する。 0.57
Specifically, we first split an image into patches, each of which is treated in the same way as a token [15]. 具体的には、まずイメージをパッチに分割し、それぞれがトークン [15] と同じように扱われます。 0.65
Instead of computing attention across all patches, we further group patches into small grids and compute attention within each grid. すべてのパッチに対する注意を計算するのではなく、パッチを小さなグリッドにグループ化し、各グリッド内の注意を計算します。 0.55
This step captures local relationships and yields more discriminative local representations. このステップは局所的な関係を捉え、より差別的な局所表現をもたらす。 0.41
Then, we merge these small grids into larger ones and compute attention within each new grid by viewing small grids at the preceding step as tokens. そして、これらの小さなグリッドをより大きなグリッドにマージし、前のステップで小さなグリッドをトークンとして見ることによって、新しいグリッド内の注目度を計算する。 0.56
In this way, we essentially capture feature relationships in the larger region. このようにして、私たちは本質的に、より大きな領域における機能関係を捉えます。 0.52
This process is iterated to reduce the number of tokens gradually. このプロセスを繰り返してトークンの数を徐々に減らします。 0.77
Throughout this procedure, our H-MHSA computes self-attention in the increasing region sizes step by step and naturally models the global relationship in a hierarchical manner. この手順を通じて,h-mhsaは,増大する領域サイズにおいて段階的に自己アテンションを計算し,階層的手法でグローバル関係を自然にモデル化する。 0.65
Since each grid at each step only has a small number of tokens, we can reduce the computational/space complexity of vision transformer dramatically. 各ステップのグリッドはトークン数が少ないため、視覚変換器の計算/空間の複雑さを劇的に減らすことができる。 0.77
We empirically observe that this strategy brings us better generalization results. この戦略がよりよい一般化結果をもたらすことを実証的に観察する。 0.63
Recent efforts in transformers mainly aim at developing a unified framework for both vision and NLP tasks. 近年のトランスフォーマーの取り組みは、主にビジョンとNLPタスクを統合化するためのフレームワークの開発を目指している。
訳抜け防止モード: 変圧器の最近の取り組み ビジョンとNLPタスクの両方に統一されたフレームワークを開発する。
0.71
Unlike those approaches, we argue that both the global dependencies and locality modelling are essential for vision tasks [22–24]. これらのアプローチとは異なり、グローバル依存性と局所性モデリングの両方がビジョンタスク [22–24] に不可欠であると主張する。 0.72
Motivated by this, we introduce a novel architecture design to inherit those merits from both transformers and CNNs, respectively. そこで本研究では,トランスフォーマーとcnnの両方のメリットを継承する新しいアーキテクチャ設計を提案する。 0.65
More specifically, the feature enhancement part in conventional transformers is a multilayer perceptron (MLP) for the underlying data patch. より具体的には、従来のトランスフォーマーの機能強化部分は、基盤となるデータパッチのための多層パーセプトロン(MLP)である。 0.69
We argue this module is less powerful for “local-invariant" ; vision data. このモジュールは“ローカル不変”な視覚データでは強力ではない、と私たちは主張する。 0.50
Combining the H-MHSA module with a more potent convolutional layer may enhance the representation ability of the network for vision data. h-mhsaモジュールとより強力な畳み込み層を組み合わせることで、視覚データのネットワークの表現能力を高めることができる。 0.72
By observing this, we exploit a new concept of Transformer in Convolutional Neural Networks (TransCNN). これを観察することで、畳み込みニューラルネットワーク(TransCNN)におけるトランスフォーマーの概念を利用する。 0.77
Unlike previous transformer networks that operate on sequence data, TransCNN processes 3D feature maps directly and is thus compatible with advanced CNN techniques proposed in the last decade. シーケンスデータを扱う従来のトランスフォーマーネットワークとは異なり、TransCNNは直接3D特徴マップを処理し、過去10年間に提案された高度なCNN技術と互換性がある。 0.69
TransCNN essentially inherits the merits of CNN and transformers and thus works well in learning scale/shift-invarian t feature representations and modelling long-dependencies in the input data. TransCNNは基本的にCNNとトランスフォーマーの利点を継承するので、スケール/シフト不変の特徴表現の学習や、入力データの長い依存性のモデル化にうまく機能する。 0.62
Experiments on the benchmarking datasets demonstrate that TransCNN achieves state-of-the-art performance when compared with both CNNbased and transformer-based competitors. ベンチマークデータセットの実験では、TransCNNはCNNベースの競合とトランスフォーマーベースの競合の両方と比較して最先端のパフォーマンスを実現している。 0.51
2 Related Work Convolutional neural networks. 2 関連作業 畳み込みニューラルネットワーク。 0.70
More than two decades ago, LeCun et al [25] built the first deep CNN, i.e., LeNet, for document recognition. 20年以上前にlecunとal [25]は、文書認識のための最初の深層cnn、すなわちlenetを構築した。 0.67
About ten years ago, AlexNet [1] introduced pooling layers into CNN and pushed forward the state-of-the-art of ImageNet classification [26] significantly. 約10年前,AlexNet [1] は CNN にプールレイヤを導入し,ImageNet の分類 [26] の最先端を推し進めた。 0.75
Since then, CNN has become the de-facto standard of computer vision owing to its powerful ability in representation learning. それ以来、CNNは、表現学習における強力な能力のため、コンピュータビジョンのデファクトスタンダードとなっている。 0.68
Brilliant achievements have been seen in this direction. この方向には輝かしい成果が見られた。 0.70
VGGNet [2] investigates networks of increasing depth using small (3 × 3) convolution filters. VGGNet [2] は小さな (3 × 3) 畳み込みフィルタを用いて深度を増大させるネットワークを探索する。 0.72
ResNet [3] manages to build very deep networks by resolving the gradient vanishing/exploding problem with residual connections [27]. resnet [3]は、残差接続で勾配の消失/爆発問題を解決することで、非常に深いネットワークを構築する [27]。 0.70
GoogLeNet [28] presents the inception architecture [29, 30] using multiple branches with different convolution kernels. GoogLeNet [28]は、異なる畳み込みカーネルを持つ複数のブランチを使用して、開始アーキテクチャ[29, 30]を示す。 0.70
ResNeXt [31] improves ResNet [3] by replacing the 3 × 3 convolution in the bottleneck with a grouped convolution. resnext [31]はボトルネックの3×3畳み込みをグループ畳み込みに置き換えることでresnet [3]を改善する。
訳抜け防止モード: ResNeXt [ 31 ] が ResNet [ 3 ] を改良 ボトルネック内の3×3の畳み込みをグループ化された畳み込みに置き換える。
0.80
DenseNets [32] presents dense connections, i.e., using the feature maps of all preceding layers as inputs for each layer. 密度ネット [32] は、各層に対する入力として、前回の全ての層の特徴マップを使用して、密接な接続を示す。 0.68
MobileNets [33, 34] decompose the traditional convolution into a pointwise convolution and a depthwise separable convolution for acceleration, and an inverted bottleneck is proposed for ensuring accuracy. MobileNets[33,34]は、従来の畳み込みをポイントワイドな畳み込みと、加速のための深さワイドな分離可能な畳み込みに分解し、精度を確保するために逆ボトルネックを提案する。
訳抜け防止モード: MobileNets[33, 34]は従来の畳み込みをポイントワイズ畳み込みに分解する 加速のための深い分離可能な畳み込みと 正確性を確保するために 逆ボトルネックが提案されます
0.68
ShuffleNets [35, 36] further decompose the pointwise convolution into pointwise group convolution and channel shuffle to reduce computational cost. シャッフルネット [35, 36] はさらにポイントワイズ畳み込みをポイントワイズ群畳み込みとチャネルシャッフルに分解し、計算コストを削減した。
訳抜け防止モード: シャッフルネット[35,36]はさらにポイントワイズ畳み込みをポイントワイズ群畳み込みとチャネルシャッフルに分解する 計算コストを低減する。
0.58
MansNet [37] proposes an automated mobile neural architecture search approach to search for a model with a good trade-off between accuracy and latency. MansNet[37]は,精度とレイテンシのトレードオフが良好なモデルを探すために,自動モバイルニューラルネットワーク検索アプローチを提案する。 0.75
EfficientNet [38] introduces a new scaling method that uniformly scales all dimensions of depth/width/resoluti on of the searched architecture of MansNet [37]. EfficientNet[38]はMansNet[37]の検索アーキテクチャの深さ/幅/解像度のすべての次元を均一にスケーリングする新しいスケーリング手法を提案する。 0.75
The above advanced techniques are the engines driving the development of computer vision in the last decade. 上記の高度な技術は、過去10年間にコンピュータビジョンの開発を推進するエンジンである。 0.81
Instead of totally abandoning them as done in recent transformer works [16–20], we aim at introducing a generic framework that could inherit the advantages of both CNNs and transformers. 最近のトランスフォーマーワーク[16–20]で行われているようにそれらを完全に放棄する代わりに、cnnとトランスフォーマーの両方の利点を継承できる汎用フレームワークの導入を目標としています。 0.61
Self-attention mechanism. Inspired by the human visual system, the self-attention mechanism is usually adopted to enhance essential information and suppress noisy information. 自己維持機構。 人間の視覚システムにインスパイアされた自己認識機構は通常、本質的な情報を高め、ノイズの多い情報を抑制するために採用される。 0.62
STN [39] presents the first spatial attention model through learning an appropriate spatial transformation for STN[39]は適切な空間変換を学習し、最初の空間的注意モデルを示す 0.82
2 2 0.85
英語(論文から抽出)日本語訳スコア
each input. Chen et al [40] proposed the first channel-wise attention model and achieved promising results on the image captioning task. それぞれの入力 Chenら[40]は、最初のチャンネルワイドアテンションモデルを提案し、画像キャプションタスクで有望な結果を得た。
訳抜け防止モード: それぞれの入力 Chenらによる最初のチャンネル-賢明な注意モデルの提案 画像キャプションタスクで 有望な成果を上げました。
0.69
Wang et al [41] explored self-attention in deep residual networks. wangら[41]は深層ネットワークにおける自己着脱を探求した。 0.61
SENet [21] applies channel-wise attention to backbone network design and boosts the accuracy of ImageNet classification [26]. senet [21] はバックボーンネットワークの設計にチャネル的に注意を払い、imagenet分類の精度を高める [26]。 0.83
CBAM [42] sequentially applies channel-wise and spatial attention for adaptive feature refinement in deep networks. CBAM[42]は、ディープネットワークにおける適応的特徴改善にチャンネルワイドおよび空間的注意を順次適用する。 0.67
BAM [43] produces a 3D attention map by combining channel-wise and spatial attention. BAM[43]は、チャネルワイドと空間アテンションを組み合わせた3次元アテンションマップを生成する。 0.59
SK-Net [44] uses channel-wise attention to fuse multiple branches with different kernel sizes selectively. SK-Net[44]は、チャンネルワイドアテンションを使用して、カーネルサイズが異なる複数のブランチを選択的に融合する。 0.53
Non-local network [45] presents non-local attention for capturing long-range dependencies. 非ローカルネットワーク[45]は、長距離依存関係をキャプチャするための非ローカルな注意を示す。 0.48
ResNeSt [46] is a milestone in this direction. ResNeSt [46]はこの方向へのマイルストーンです。 0.79
It applies channel-wise attention on different network branches to capture cross-feature interactions and learn diverse representations. 異なるネットワークブランチにチャネル単位で注意を払い、機能間のインタラクションをキャプチャし、多様な表現を学習する。
訳抜け防止モード: チャネル - 異なるネットワークブランチに対する賢明な注意を適用 クロスフィーチャインタラクションをキャプチャし、多様な表現を学ぶ。
0.60
Our work shares some similarities with these works by applying self-attention for adaptive feature refinement. 我々の研究は、適応的特徴改善に自己注意を適用することで、これらの作品といくつかの類似点を共有している。 0.39
The difference is that we propose H-MHSA to learn global relationships rather than a simple feature recalibration using spatial or channel-wise attention in these works. その違いは,H-MHSAが空間的・チャネル的注意力を用いた単純な特徴再構成ではなく,グローバルな関係を学習するためのものである。 0.60
Vision transformer. ビジョン・トランスフォーマー。 0.65
Transformer [12] entirely relies on self-attention to handle long-range dependencies of sequence data. Transformer [12]は完全に、シーケンスデータの長距離依存関係を処理するための自己アテンションに依存しています。 0.53
It was first proposed for NLP tasks [13, 14]. 最初は nlp タスク [13, 14] で提案された。 0.73
In order to apply transformers on image data, Dosovitskiy et al [15] split an image into patches and treated them as tokens. 画像データにトランスフォーマーを適用するために、dosovitskiyら[15]はイメージをパッチに分割し、それらをトークンとして扱った。 0.64
Hence, a pure transformer [12] can be adopted. これにより、純変圧器[12]を採用することができる。 0.67
Such a vision transformer (ViT) attains competitive accuracy for ImageNet classification [26]. このような視覚変換器(ViT)は、ImageNet分類のための競合精度を得る[26]。 0.75
More recently, lots of efforts have been dedicated to improving ViT. 最近では、ViTの改善に多くの努力が注がれている。 0.70
T2T-ViT [47] proposes to split an image into tokens of overlapping patches so as to represent local structure by surrounding tokens. T2T-ViT[47]は、画像を重複パッチのトークンに分割して、周辺トークンによる局所構造を表現することを提案する。 0.59
CaiT [48] builds a deeper transformer network by introducing a per-channel weighting and specific class attention. CaiT[48]は、チャネルごとの重み付けと特定のクラスアテンションを導入し、より深いトランスフォーマーネットワークを構築する。
訳抜け防止モード: CaiT[48]はより深いトランスフォーマーネットワークを構築する per-チャネル重み付けと特定のクラスアテンションを導入する。
0.71
DeepViT [49] proposes Re-attention to re-generate attention maps to increase their diversity at different layers. DeepViT [49]は、異なるレイヤでの多様性を高めるために注意マップを再生成する再注意を提案する。
訳抜け防止モード: DeepViT [49 ]がRe - attention to re - generate attention mapを提案 異なる層で多様性を高めます
0.76
DeiT [50] presents a knowledge distillation strategy for improving the training of ViT [15]. DeiT[50]は、ViT[15]のトレーニングを改善するための知識蒸留戦略を示す。 0.78
Srinivas et al [51] tried to add the bottleneck structure to vision transformer. Srinivas et al [51] は視覚変換器にボトルネック構造を追加しようと試みた。 0.75
Some works build pyramid transformer networks to generate multi-scale features [16–20]. ピラミッドトランスフォーマーネットワークを構築して, マルチスケールな特徴 [16–20] を生成する作業もある。 0.58
PVT [18] adopts convolution operation to downsample the feature map in order to reduce the sequence length in MHSA, thus reducing the computational load. PVT[18]は、MHSAのシーケンス長を低減するために特徴マップをダウンサンプルする畳み込み演算を採用し、計算負荷を低減させる。 0.78
Similar to PVT [18], MViT [20] utilizes pooling to compute attention on a reduced sequence length. PVT[18]と同様、MViT[20]はプールを利用してシーケンス長の削減に注意を向ける。 0.75
Swin Transformer [17] computes attention within small windows and shifts windows to gradually enlarge the receptive field. swin transformer [17]は小さなウィンドウ内の注意を計算し、ウィンドウを徐々にレセプティブフィールドを拡大する。 0.79
CoaT [19] computes attention in the channel dimension rather than in the traditional spatial dimension. CoaT[19]は従来の空間次元ではなくチャネル次元の注意を計算します。 0.80
In this paper, we introduce novel designs to reduce the computational complexity of MHSA and maintain the global relationship modelling capacity of transformers. 本稿では,MHSAの計算複雑性を低減し,変換器のグローバルな関係モデリング能力を維持するための新しい設計を提案する。 0.80
Another salient merit of the proposed method is that the new H-MHSA module could be easily pluggable into any CNN architectures and thus making the resulting architecture inherit the advantages of both CNNs and Transformers. 提案手法のもう1つの顕著な利点は、新しいH-MHSAモジュールを任意のCNNアーキテクチャに簡単にプラグインでき、その結果、CNNとTransformerの両方の利点を継承できるということである。 0.60
3 Methodology In this section, we first provide a brief review of vision transformer [15] in §3.1. 3 方法論 本項ではまず,3.1 における視覚変換器 [15] について概説する。 0.77
Then, we present our H-MHSA in §3.2. すると、H-MHSAを3.2で提示する。 0.57
Finally, we present the details of TransCNN in §3.3. 最後に、TransCNNの詳細を「3.3」で示す。 0.61
3.1 Review of Vision Transformer Transformer [12, 15] relies heavily on MHSA to model long-range relationships. 3.1 Vision Transformer Transformer [12, 15]のレビューは、長距離関係をモデル化するためにMHSAに大きく依存している。
訳抜け防止モード: 3.1 Vision Transformer Transformer [12, 15] のレビュー 長い範囲の関係をモデル化する。
0.79
Suppose X ∈ RN×C denotes the input, where N and C are the number of tokens and the feature dimension of each token, respectively. X ∈ RN×C は入力を表し、N と C はそれぞれトークンの数と各トークンの特徴次元を表す。 0.68
We define the query Q = XWq, the key K = XWk, and the value V = XWv, where Wq ∈ RC×C, Wk ∈ RC×C, and Wv ∈ RC×C are the weight matrices of linear transformations. クエリ Q = XWq,キー K = XWk,値 V = XWv, ここで Wq ∈ RC×C, Wk ∈ RC×C, Wv ∈ RC×C は線型変換の重み行列である。 0.67
With a mild assumption that the input and output have the same dimension, the traditional MHSA can be calculated as 入力と出力が同じ次元であるという軽微な仮定で、伝統的なMHSAを計算できる。 0.74
√ A = Softmax(QKT/ A = ソフトマックス(QKT/) 0.67
d)V, (1) √ d)v。 (1) √ 0.80
in which d means an approximate normalization, and the Softmax function is applied to the rows of matrix. d は近似正規化を意味し、ソフトマックス関数は行列の行に適用される。 0.66
Note that we omit the concept of multiple heads here for simplicity. ここで注意すべきは、シンプルさのために複数のヘッドの概念を省略することです。 0.50
In Equ. (1), the matrix product of QKT first computes the similarity between each pair of tokens. エクアドル。 1)QKTの行列積は、まずそれぞれのトークン間の類似性を計算する。 0.44
Each new token is then derived over the combination of all tokens. 新たなトークンは、すべてのトークンの組み合わせから派生する。 0.63
After the computation of MHSA, a residual connection is further added to ease the optimization, like MHSAの計算の後、最適化を容易にするために残留接続がさらに追加される。 0.72
A(cid:48) = AWp + X, A(cid:48) = AWp + X, 0.98
3 (2) 3 (2) 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: Illustration of the proposed TransCNN. 図1: 提案されたtranscnnのイラスト。 0.83
GAP: global average pooling; FC: fully-connected layer; DW Conv: depthwise separable convolution; IRB: Inverted Residual Bottleneck [34]; TDB: Two-branch Downsampling Block. GAP:グローバル平均プーリング、FC:フル接続層、DW Conv:ディープワイド分離可能な畳み込み、IRB:Inverted Residual Bottleneck [34]; TDB: Two-branch Downsampling Block。 0.85
×Li means that the H-MHSA + IRB block is repeated for Li times. ×Li は H-MHSA + IRB ブロックを Li 回繰り返すことを意味する。 0.86
H and W denote the height and width of the input image, respectively. HとWは、それぞれ入力画像の高さと幅を表す。 0.74
S denotes the stride of the convolution. Sは畳み込みの歩みを表す。 0.58
SiLU [52] is a nonlinearization function. SiLU[52]は非線形化関数である。 0.78
in which Wp ∈ RC×C is a weight matrix for feature projection. ここで wp ∈ rc×c は特徴射影の重み行列である。 0.67
At last, an MLP is adopted to enhance the representation, which can be formulated as 最終的に、表現を強化するためにMDPが採用され、表現は形式化できる。 0.53
where Y denotes the output of a transformer block. ここで Y は変換器ブロックの出力を表す。 0.78
The computational complexity of MHSA (Equ. MHSAの計算複雑性(Equ)。 0.74
(1)) is Ωtime(MHSA) = 3N C 2 + 2N 2C. 1)は Ωtime(MHSA) = 3N C 2 + 2N 2C。 0.68
Y = MLP(A(cid:48)) + A(cid:48), Y = MLP(A(cid:48)) + A(cid:48) 0.98
(3) (4) It is easy to infer that the space complexity (memory consumption) also includes the term O(N 2). (3) (4) 空間複雑性(メモリ消費)もまた O(N2) という用語を含むと推測することは容易である。 0.84
O(N 2) could become very large for high-resolution inputs, and this limits the applicability of transformers for vision tasks. o(n2) は高解像度入力に対して非常に大きくなり、視覚タスクに対するトランスフォーマーの適用性が制限される。 0.68
Motivated by this, we aim at reducing such complexity and maintaining the capacity of global relationship modelling without the risk of reduced performances. このような複雑性を低減し、性能低下のリスクを伴わずにグローバルな関係モデリング能力を維持することを目的としている。 0.69
3.2 Hierarchical Multi-Head Self-Attention 3.2 階層型マルチヘッドセルフアテンション 0.48
Here, we introduce how to reduce the computational/space complexity of Equ. 本稿では、Equの計算/空間複雑性を低減する方法について紹介する。 0.58
(1) using our H-MHSA. 1) H-MHSA を用いた。 0.78
Instead of computing attention across the whole input, we compute attention in a hierarchical manner so that each step only processes a limited number of tokens. 入力全体に対する注意を計算するのではなく、各ステップが限られた数のトークンだけを処理するように階層的な方法で注意を計算します。 0.69
Fig 1b shows the paradigm of H-MHSA. 図1bはH-MHSAのパラダイムを示しています。 0.50
Suppose the input feature map X ∈ RH0×W0×C has a height of H0 and a width of W0, and we have N = H0 × W0. 入力特徴写像 X ∈ RH0×W0×C が高さ H0 で幅 W0 であり、N = H0 × W0 であるとする。 0.88
We divide the feature map into small grids with the size of G0 × G0 and reshape the feature map as 特徴写像をg0 × g0の大きさの小さな格子に分割し、特徴写像を再形作る。 0.74
X ∈ RH0×W0×C → X(cid:48) ∈ R( H0 X ∈ RH0×W0×C → X(cid:48) ∈ R(H0) 0.71
G0 (5) With Q = X(cid:48)Wq, K = X(cid:48)Wk, and V = X(cid:48)Wv, Equ. G0 (5) Q = X(cid:48)Wq, K = X(cid:48)Wk, V = X(cid:48)Wv, Equ。 0.85
(1) is applied to generate local attention A0. 1)局所注意a0を生成する。 0.52
To ease network optimization, we reshape A0 back to the shape of X through ネットワーク最適化を容易にするために a0 を x の形に戻します 0.83
×G0)×C → X(cid:48) ∈ R( H0 ×G0)×C → X(cid:48) ∈ R(H0) 0.83
G0 ×G0)×( W0 G0 G0 ×G0)×(W0G0) 0.76
× W0 G0 )×(G0×G0)×C. × W0 G0 )×(G0×G0)×C。 0.80
A0 ∈ R( H0 A0 ∈ R(H0) 0.74
G0 × W0 G0 G0 × W0 G0 0.78
)×(G0×G0)×C → A0 ∈ R( H0 )×(G0×G0)×C → A0 ∈ R(H0) 0.79
G0 ×G0)×( W0 G0 G0 ×G0)×(W0G0) 0.76
×G0)×C → A0 ∈ RH0×W0×C, ×G0)×C → A0 ∈ RH0×W0×C, 0.71
(6) 4 MHSAMHSAMHSABN, SiLUBN, SiLUBNMax PoolingSiLUBNBN(a) Network architectureConv BlockTDBTDBTDBH-MHSA IRBH-MHSAIRBH-MHSAIR BH-MHSAIRB(b) H-MHSA(c) IRB(d) TDB: Element-wise sumGAPFCHW44HW1L88HW2L1616HW3232HW3L4L11 Conv11 Conv11 Conv33 DW Conv33 Conv, 2SOutputUpUpX0A1A2A (6) 4 mhsamhsamhsabn, silubn, silubnmax poolingsilubnbn(a) network architectureconv blocktdbtdbh-mhsairb h-mhsairbh-mhsairbh- mhsairb(b) h-mhsa(c) irb(d) tdb: element-wise sumgapfchw,44hw,1l,8 8hw,2l,16hw,16hw,32h w,32hw,32hw,32hw,4l, 11 conv,11 conv,11 conv,11 conv,33 dw conv.33 conv, 2s outputupupx0a1a2a 0.65
英語(論文から抽出)日本語訳スコア
and add a residual connection to it (7) Since A0 is computed within each small G0 × G0 grid, the computational/space complexity is reduced significantly. A0 は各小さな G0 × G0 グリッド内で計算されるので、計算/空間の複雑さは大幅に減少する。 0.71
For the i-th (i > 0) step, we view each smaller grid Gi−1 × Gi−1 at the (i-1)-th step as a token, which can be simply achieved by downsampling the attention feature Ai−1: i 番目の (i > 0) ステップでは、各小さなグリッド gi−1 × gi−1 を (i-1) 番目のステップでトークンとして見る。
訳抜け防止モード: i - th ( i > 0 ) ステップに対して。 それぞれの小さなグリッド Gi−1 × Gi−1 を (i-1) ステップでトークンとして見る。 注意点Ai−1をダウンサンプリングすることで簡単に実現できる。
0.78
A0 = X + A0. A0 = X + A0。 0.88
A(cid:48) Gi Gi A(第48回) 義 義 0.41
i−1 = MaxPoolGi−1(Ai−1) + AvePoolGi−1 (Ai−1), i−1 = MaxPoolGi−1(Ai−1) + AvePoolGi−1(Ai−1) 0.69
(8) where MaxPoolGi−1(·) and AvePoolGi−1 (·) mean to downsample Ai−1 by Gi−1 times using maximum pooling and average pooling (with kernel size and stride of Gi−1), respectively. (8) MaxPoolGi−1(·) と AvePoolGi−1(·) は、それぞれ最大プールと平均プール(カーネルサイズと Gi−1 のストライド)を用いて、Ai−1 を Gi−1 倍に下げることを意味する。 0.73
Hence, we i−1 ∈ RHi×Wi×C with Hi = H0/(G0G1 ··· Gi−1) and Wi = W0/(G0G1 ··· Gi−1). したがって、Hi = H0/(G0G1 ·· Gi−1) と Wi = W0/(G0G1 ··· Gi−1) を持つ i−1 ∈ RHi×Wi×C である。 0.61
Then, have A(cid:48) we divide A(cid:48) i−1 ∈ RHi×Wi×C → A(cid:48) A(cid:48) With Q = A(cid:48) i−1Wq, K = A(cid:48) feature Ai. すると A(cid:48) を A(cid:48) i−1 ∈ RHi×Wi×C → A(cid:48) A(cid:48) Q = A(cid:48) i−1Wq, K = A(cid:48) と分割する。 0.82
Ai is reshaped back to the shape of the input, like aiは入力の形に戻ります 例えば 0.44
i−1 into Gi × Gi grids and reshape it: ×Gi)×( Wi i−1 ∈ R( Hi Gi i−1Wk, and V = A(cid:48) ×Gi)×(Wii−1 ∈ R(Hi Gi i−1Wk, V = A(cid:48)
訳抜け防止モード: i−1 を Gi × Gi 格子に変換して再形成する : ×Gi)× (Wii−1 ∈ R (Hi Gi i−1Wk, V = A(cid:48 )
0.78
×Gi)×C → A(cid:48) i−1Wv, Equ. ×Gi)×C → A(cid:48) i−1Wv, Equ。 0.83
(1) is called to obtain the attention 1)注意を引くために呼ばれる 0.70
)×(Gi×Gi)×C. )×(Gi×Gi)×C。 0.80
i−1 ∈ R( Hi i−1 ∈ R(Hi) 0.71
× Wi Gi (9) ×Wi Gi (9) 0.71
Ai ∈ R( Hi Ai ∈ R(Hi) 0.90
Gi × Wi Gi )×(Gi×Gi)×C → Ai ∈ R( Hi 義 ×Wi Gi )×(Gi×Gi)×C → Ai ∈ R(Hi) 0.60
Gi ×Gi)×( Wi Gi 義 ×Gi)×(Wi Gi) 0.64
×Gi)×C → Ai ∈ RHi×Wi×C, ×Gi)×C → Ai ∈ RHi×Wi×C, 0.85
(10) and a residual connection is added (11) This process is iterated until Hi × Wi is small enough to run Equ. (10) そして、残余接続を追加する(11) このプロセスは、hi × wi が equ の実行に十分小さいまで反復される。 0.83
(1) directly without grid splitting. 1)グリッド分割なしで直接行う。 0.75
The final output of H-MHSA is H-MHSAの最終出力は 0.92
Ai = A(cid:48) Ai = A(cid:48) 0.92
i−1 + Ai. H-MHSA(X) = (A0 + ··· + Upsample(AM ))Wp + X, i−1+Ai。 H-MHSA(X) = (A0 + ··· + Upsample(AM ))Wp + X, 0.84
(12) where Upsample(·) means to upsample an attention feature to the original size, Wp has the same meaning as Equ. (12)upsample(·)が注目特徴を元のサイズにアップサンプすることを意味する場合、WpはEquと同じ意味を持つ。 0.78
(2), and M is the maximum number of steps. (2)、およびmは、ステップの最大数である。 0.80
In this way, H-MHSA can model global relationships, equivalent to traditional MHSA. このようにして、H-MHSAは伝統的なMHSAと同等のグローバルな関係をモデル化することができる。 0.55
It is easy to show that, with a mild assumption that all Gi is the same, the computational complexity of H-MHSA is approximately すべての Gi が同じであるという軽微な仮定で、H-MHSA の計算複雑性がほぼ等しいことを示すのは容易である。 0.79
0), where G2 Ωtime(H-MHSA) = 3N C 2 + 2N G2 0), G2。 Ωtime(H-MHSA) = 3N C 2 + 2N G2 0.77
(13) Compared to Equ. (13)Equと比較。 0.71
(4), we reduce computational complexity significantly, i.e., from O(N 2) to 0 can be much smaller than N. The same conclusion can be easily derived for space O(N G2 complexity. (4) 計算複雑性は O(N2) から 0 へは N よりもはるかに小さくなり、同じ結論は空間 O(N G2 ) の複雑性に対して容易に導出できる。 0.85
Suppose we have a 1024×1024 input, PVT [18] can only downsample it into 1/8 scale, so its computational/space complexity is approximately proportional to N·N/82 = 10242×10242/82 = 0 = 10242 × 322 = 1G when 16G, while our H-MHSA only has an approximate complexity of N G2 we set both G0 and G1 to 32 using two hierarchies. 1024×1024の入力があると仮定すると、pvt [18] はそれを1/8スケールにしかサンプリングできないので、計算/空間の複雑さは16gで n·n/82 = 10242×10242/82 = 0 = 10242 × 322 = 1g にほぼ比例する。 0.66
For Swin Transformer [17], it uses a fixed 7 × 7 window to scan the input and thus needs many layers to obtain a global view of the input, while our H-MHSA can model the global relationships much more efficiently. Swin Transformer [17]では、固定された7×7ウィンドウを使用して入力をスキャンし、入力のグローバルビューを得るためには多数のレイヤが必要であるが、H-MHSAはグローバルな関係をより効率的にモデル化できる。 0.72
Moreover, as the downsampling operation of Equ. さらに、equのダウンサンプリング操作として。 0.65
(8) is parameter-free, we can set Gi values flexibly for downstream vision tasks without retraining on the ImageNet dataset [26]. ImageNet データセット [26] で再トレーニングすることなく,下流の視覚タスクに対して Gi 値を柔軟に設定することができます。 0.70
In contrast, PVT [18] and Swin Transformer [17] utilize fixed settings and have to be retrained on ImageNet if we want to re-parameterize the network configuration. 対照的にPVT [18] と Swin Transformer [17] は固定設定を利用し、ネットワーク設定を再パラメータ化したい場合はImageNetで再トレーニングする必要があります。 0.77
0C 3.3 Transformer in Convolutional Neural Networks 0C 3.3 畳み込みニューラルネットワークにおけるトランスフォーマー 0.70
Recent efforts on transformer usually aim at building pure transformer networks to provide a unified architecture for both vision and NLP tasks [16–20]. トランスフォーマーの最近の取り組みは、ビジョンとNLPタスク [16–20] の両方に統一的なアーキテクチャを提供するために、純粋なトランスフォーマーネットワークを構築することを目的としている。
訳抜け防止モード: 変圧器の現状と課題 視覚およびNLPタスク [16–20 ] の統一アーキテクチャを提供するために純粋なトランスフォーマーネットワークを構築する。
0.73
This may not be optimal for vision tasks because those architectures are not good at learning locality representations that we argue are essential for vision data [22–24]. なぜなら、これらのアーキテクチャは、ビジョンデータ [22–24] に必須であると主張する局所性表現の学習が得意ではないからである。 0.69
Motivated by this, we design the H-MHSA module in a way that it could be readily pluggable into any existing CNN architecture. そこで我々は,既存のCNNアーキテクチャに容易にプラグイン可能なH-MHSAモジュールを設計した。 0.67
In this way, the resulting network could essentially inherit the merits from both transformers and CNNs. このようにして、結果として得られるネットワークは、本質的にトランスフォーマーとcnnの両方からメリットを継承することができる。 0.51
We follow the common practice in the vision community to preserve 3D feature maps in the network backbone and use a global average pooling layer and a fully connected layer to predict image classes. 我々はビジョンコミュニティにおいて、ネットワークバックボーン内の3次元特徴マップを保存し、グローバル平均プーリング層と完全に接続された層を用いて画像クラスを予測するという一般的な実践に従っている。
訳抜け防止モード: ネットワークバックボーン内の3次元特徴マップを保存するためのビジョンコミュニティにおける共通プラクティスに従う。 グローバル平均プール層と 完全に接続された層を使い イメージクラスを予測できます
0.81
This is different from existing transformers which rely on another 1D class token to make predictions これは、予測を行うために別の1Dクラストークンに依存する既存のトランスフォーマーとは異なる。
訳抜け防止モード: これは既存の変圧器とは異なる。 別の1Dクラストークンを使って予測する
0.70
5 5 0.85
英語(論文から抽出)日本語訳スコア
Table 1: Network configurations of TransCNN. 表1: TransCNNのネットワーク構成。 0.75
The parameters of building blocks are shown in brackets, with the numbers of blocks stacked. ビルディングブロックのパラメータはブラケットで示され、ブロックの数は積み重ねられている。 0.78
For the first stage, each convolution has C channels and a stride of S. For the other four stages, each IRB uses a K × K depthwise separable convolution and an expansion ratio of E. Note that we omit the downsampling operation after t-th stage (t = {2, 3, 4}) for simplicity. IRB は K × K の深さ分離可能な畳み込みと E の膨張比を用いており、t 番目の段階 (t = {2, 3, 4}) 以降のダウンサンプリング操作を省略する。
訳抜け防止モード: 第1段階では、それぞれの畳み込みはcチャネルとsのストライドを他の4つのステージに持つ。 各irbは、k×kの深さ分離可能な畳み込みと、t - thステージ (t = { 2) 後のダウンサンプリング操作を省略するeの展開比を用いる。 3 , 4 } ) 単純さのため。
0.67
“#Params” refers to the number of parameters. "#Params" はパラメータの数を指します。 0.77
Stage 1 2 3 4 舞台 1 2 3 4 0.83
5 Input Size 224 × 224 5 入力サイズ 224 × 224 0.83
Operator 3 × 3 conv. オペレーター 3 × 3 conv。 0.77
56 × 56 28 × 28 56 × 56 28 × 28 0.85
14 × 14 7 × 7 1 × 1 #Params 14 × 14 7 × 7 1 × 1 #Params 0.85
H-MHSA IRB H-MHSA IRB 0.72
H-MHSA IRB H-MHSA IRB 0.72
H-MHSA IRB H-MHSA IRB 0.72
H-MHSA IRB H-MHSA IRB 0.72
- TransCNN-Small C = 16, S = 2 C = 64, S = 2 × 2 - TransCNN-Small C = 16, S = 2 C = 64, S = 2 × 2 0.90
K = 5 E = 4 K = 5 E = 4 0.85
(cid:34)C = 64 (cid:35) (cid:34)C = 128 (cid:35) (cid:35) (cid:34)C = 256 (cid:34)C = 512 (cid:35) (cid:34)C = 64 (cid:35) (cid:34)C = 128 (cid:35) (cid:34)C = 256 (cid:34)C = 512 (cid:35) 0.90
K = 3 E = 4 K = 3 E = 4 0.85
K = 5 E = 6 K = 5 E = 6 0.85
× 2 × 2 × 2 × 2 × 2 × 2 0.85
K = 3 E = 5 K = 3 E = 5 0.85
K = 5 E = 4 K = 5 E = 4 0.85
TransCNN-Base C = 16, S = 2 C = 64, S = 2 × 3 TransCNN-Base C = 16, S = 2 C = 64, S = 2 × 3 0.94
(cid:34)C = 64 (cid:35) (cid:34)C = 128 (cid:35) (cid:35) (cid:34)C = 256 (cid:34)C = 512 (cid:35) (cid:34)C = 64 (cid:35) (cid:34)C = 128 (cid:35) (cid:34)C = 256 (cid:34)C = 512 (cid:35) 0.90
K = 3 E = 4 K = 3 E = 4 0.85
K = 5 E = 6 K = 5 E = 6 0.85
× 4 × 8 × 3 × 4 × 8 × 3 0.85
K = 3 E = 6 K = 3 E = 6 0.85
Global Average Pooling, 1000-d FC, Softmax 世界平均プール、1000-d FC、Softmax 0.79
13.1M 26.7M 13.1M 26.7M 0.47
[15, 16, 18–20, 47–50, 53–55]. [15, 16, 18–20, 47–50, 53–55]. 0.85
We also observe that previous transformer networks [15–20, 47–50] usually adopt GELU function [56] for nonlinear activation. また、従来の変換器ネットワーク [15–20, 47–50] は、通常、非線形活性化のためにGELU関数 [56] を採用する。 0.62
However, GELU functions are memoryhungry during network training. しかし、ゲル関数はネットワークトレーニング中に記憶力を持つ。 0.60
We empirically found that SiLU function [52], originally coined in [56], performs on-par with GELUs and is more memory-friendly. 実験により,SiLU関数[52]は[56]で生成され,GELUとオンパーで動作し,メモリフレンドリーであることがわかった。 0.67
Hence, TransCNN uses SiLU function [52] for nonlinear activation. したがって、transcnnは非線形活性化にsilu関数 [52] を用いる。 0.75
The overall architecture of TransCNN is illustrated in Fig 1. TransCNNの全体的なアーキテクチャを図1に示す。 0.72
At the beginning of TransCNN, unlike previous transformers that flatten image patches [15], we apply two sequential vanilla 3 × 3 convolutions, each of which has a stride of 2, to downsample the input image into 1/4 scale. transcnnの開始時、画像パッチ [15] をフラットにする以前のトランスとは異なり、2つのシーケンシャルなバニラ3×3畳み込みを適用し、それぞれが2のストライドを持ち、入力画像を1/4スケールにダウンサンプルする。 0.77
Then, we stack H-MHSA and convolution blocks alternatively, which can be divided into four stages with pyramid feature scales of 1/4, 1/8, 1/16, and 1/32, respectively. そして、H-MHSAと畳み込みブロックを積み重ね、ピラミッドの特徴スケールが1/4, 1/8, 1/16, 1/32の4段階に分けられる。 0.78
The convolution block we adopt is the widely-used Inverted Residual Bottleneck (IRB, Fig 1c) with depthwise separable convolution [34]. 我々が採用する畳み込みブロックは,奥行き分離可能な畳み込みを伴う倒立残差ボトルネック(irb,fig1c)である [34]。 0.57
For feature downsampling at the end of each stage, we design a simple Twobranch Downsampling Block (TDB, Fig 1d). 各ステージの最後に機能ダウンサンプリングを行うために、簡単なTwobranch Downsampling Block (TDB, Fig 1d) を設計する。 0.85
It consists of two branches: one branch is a vanilla 3 × 3 convolution with a stride of 2; the other branch is a pooling layer and a 1 × 1 convolution. 1つの枝はバニラ3×3の枝であり、2の枝はプール層、もう1つの枝は1×1の枝である。
訳抜け防止モード: 2つの枝からなる。 1つの枝はバニラ 3 × 3 の畳み込みで、ストライドは 2 である もう一つの分岐はプール層と1×1の畳み込みである。
0.79
These two branches are fused by element-wise sum to keep more contextual information in feature downsampling. これら2つのブランチは要素単位の和によって融合され、より多くのコンテキスト情報を機能ダウンサンプリングに保持する。
訳抜け防止モード: これら2つの枝は要素によって融合される より文脈的な情報を 機能ダウンサンプリングに残します
0.62
Our experiments show that TDB performs better than direct downsampling. 実験の結果,tdbは直接ダウンサンプリングよりも優れた性能を示す。 0.52
The configuration details of TransCNN are summarized in Tab. transcnn の構成の詳細は tab にまとめられている。 0.69
1. We provide two versions of TransCNN: TransCNN-Small and TransCNN-Base. 1. TransCNN は TransCNN-Small と TransCNN-Base の2つのバージョンを提供する。 0.75
TransCNN-Base has a similar number of parameters to ResNet50 [3]. TransCNN-BaseはResNet50[3]と同じような数のパラメータを持つ。 0.63
Note that we only adopt the simplest parameter settings without careful tuning to demonstrate the effectiveness and generality of the proposed concepts, i.e., H-MHSA and TransCNN. H-MHSAやTransCNNといった提案された概念の有効性と汎用性を示すため、注意深いチューニングなしに最も単純なパラメータ設定を採用することに注意してください。 0.61
For example, we use the typical numbers of channels, i.e., 64, 128, 256, and 512. 例えば、典型的なチャネルの数、すなわち64, 18, 256, 512を使います。
訳抜け防止モード: 例えば、典型的なチャネルの数、すなわち、チャンネルの数を使います。 64 , 128 , 256 , and 512 .
0.85
The dimension of each head in MHSA is set to a typical value of 64. MHSAの各ヘッドの寸法は、典型的な値64に設定される。 0.76
We believe that a delicate engineering tuning on those parameter settings could further boost the performance but is out of the scope of this paper. パラメータ設定の微妙なエンジニアリングチューニングにより、パフォーマンスをさらに向上できると考えていますが、この論文の範囲外です。 0.71
4 Experiments This section evaluates the proposed TransCNN for image classification on the ImageNet dataset [26]. 4つの実験 本稿では,ImageNetデータセット[26]上の画像分類のためのTransCNNを提案する。 0.69
We first provide ablation studies of TransCNN for better understanding. われわれはまず,TransCNNのアブレーション研究を行い,理解を深める。 0.62
Then, we compare TransCNN to existing CNN- and transformer-based networks. 次に、トランスCNNと既存のCNNおよびトランスフォーマーベースのネットワークを比較した。 0.63
At last, we further validate the superiority of TransCNN by applying it to object detection and instance segmentation on the popular MS-COCO dataset [57]. 最後に,人気のms-cocoデータセット[57]上のオブジェクト検出とインスタンスセグメンテーションに適用することにより,transcnnの優位性をさらに検証する。 0.72
6 6 0.85
英語(論文から抽出)日本語訳スコア
Table 2: Ablation studies for various design choices of this paper on the ImageNet validation set [26]. 表2: imagenet validation set [26] における各種設計選択のためのアブレーション研究。 0.73
The configuration of TransCNN-Base is adopted for all experiments. TransCNN-Baseの設定はすべての実験で採用されている。 0.60
3 × 3 IRB Default IRB 1st-level H-MHSA 2nd-level H-MHSA TDB Top-1 Acc. 3 × 3 IRB デフォルト IRB 1st-level H-MHSA 2nd-level H-MHSA TDB Top-1 Acc。 0.62
 Design 1 2 3 4 5 6  デザイン 1 2 3 4 5 6 0.84
            0.85
            0.85
77.0 77.6 79.2 79.3 79.9 80.1 77.0 77.6 79.2 79.3 79.9 80.1 0.43
4.1 Experimental Setup ImageNet dataset [26] consists of 1.28M training images and 50K validation images from 1000 categories. 4.1 実験装置 imagenetデータセット[26]は、1000のカテゴリの1.28mのトレーニングイメージと50kの検証イメージで構成されている。 0.60
We adopt the training set to train our network and the validation set to test the performance. ネットワークをトレーニングするためのトレーニングセットと、パフォーマンスをテストするための検証セットを採用しています。 0.68
We implement TransCNN using the popular PyTorch framework [58]. PyTorchフレームワーク[58]を使ってTransCNNを実装します。 0.75
For a fair comparison, we follow the same training protocol as DeiT [50], which is the standard protocol for training transformer networks nowadays. 公平な比較のために、今日のトランスフォーマーネットワークのトレーニングのための標準プロトコルであるdeit [50]と同じトレーニングプロトコルに従っています。 0.77
Specifically, the input images are randomly cropped to 224 × 224 pixels, followed by random horizontal flipping and mixup [59] for data augmentation. 具体的には、入力画像はランダムに224×224ピクセルに切り分けられ、データ拡張のためにランダムな水平反転とミックスアップ [59] が行われる。 0.71
Label smoothing [29] is used to avoid overfitting. ラベル平滑化[29]はオーバーフィッティングを避けるために使われる。 0.69
The AdamW optimizer [60] is adopted with the momentum of 0.9, the weight decay of 0.05, and a mini-batch size of 128 per GPU by default. AdamWオプティマイザ[60]は0.9の運動量、0.05の重量減衰、GPUあたりのミニバッチサイズをデフォルトで128とする。 0.65
The initial learning rate is set to 8 × 10−4, which decreases following the cosine learning rate schedule [61]. 初期学習率は8×10−4に設定され、コサイン学習率スケジュール[61]に従って減少する。 0.79
The training process lasts for 300 epochs on eight NVIDIA Tesla V100 GPUs. トレーニングプロセスは、nvidia tesla v100 gpu 8台で300エポック持続する。 0.74
For model evaluation, we apply a center crop of 224 × 224 pixels on validation images to evaluate the recognition accuracy. モデル評価のために,検証画像に224×224ピクセルの中心作物を適用し,認識精度を評価する。 0.81
We report the top-1 classification accuracy on the validation set as well as the number of parameters and the number of FLOPs for various models. 検証セットの上位1分類精度とパラメータ数,各種モデルのFLOP数について報告する。
訳抜け防止モード: 検証セットの上位1分類精度とパラメータ数について報告する。 そして、様々なモデルのFLOPの数です。
0.67
Note that for ablation studies, we utilize a mini-batch size of 64 and 100 training epochs to save time. アブレーション研究では,64から100の訓練期間のミニバッチサイズを用いて時間を節約する。 0.73
Moreover, only two hierarchies are enough for 224 × 224 inputs. さらに、224×224入力には2つの階層だけで十分である。 0.71
We set G0 = {8, 4, 2} for t-th stage, t = {2, 3, 4}, respectively. g0 = {8, 4, 2} を t 番目の段、t = {2, 3, 4} とそれぞれ設定する。 0.80
The fifth stage can be processed directly. 第5段階は直接処理できる。 0.74
Besides, we adopt Q = A0Wq rather than Q = A(cid:48) 0Wq for the second hierarchy to omit an upsampling operation in Equ. さらに、第2階層に対して Q = A(cid:48) 0Wq ではなく Q = A0Wq を採用して、Equ におけるアップサンプリング操作を省略する。 0.61
(12). 4.2 Ablation Studies (12). 4.2 アブレーション研究 0.78
In this part, we evaluate various design choices of the proposed TransCNN. 本稿では,提案するtranscnnの設計選択について評価する。 0.70
As discussed above, here, we only train all ablation models for 100 epochs to save time. ここでは、時間を節約するために、100エポックで全てのアブレーションモデルを訓練する。 0.60
The batch size and learning rate are also reduced by half accordingly. また、バッチサイズと学習率も半減する。 0.48
The configuration of TransCNN-Base is adopted for these ablation studies. TransCNN-Baseの構成はこれらのアブレーション研究に採用されている。 0.55
Main components of TransCNN. TransCNNの主なコンポーネント。 0.70
We start with a pure CNN architecture by removing H-MHSA, replacing TDB with its single pooling branch, and utilizing 3 × 3 depthwise separable convolutions for all IRB. まず、H-MHSAを除去し、TDBを単一のプーリングブランチに置き換え、すべてのIRBに対して深さ3×3の分離可能な畳み込みを利用する。 0.54
This baseline variant is just like MobileNetV2 [34]. このベースラインの変種はMobileNetV2[34]と同じです。 0.73
From Tab. 2, we can see that the top-1 accuracy of this baseline on the ImageNet validation set [26] is 77.0%. タブから。 2)imagenet validation set [26]におけるこのベースラインのtop-1の精度は77.0%である。 0.67
Then, we reform this baseline with the default IRB setting of TransCNN-Base, i.e., using 5 × 5 depthwise separable convolutions for IRB in the 2nd and 4th stages, inspired by [38]. そして,このベースラインを,[38]にインスパイアされた第2段階と第4段階のICBに対して,5×5の深さ分離可能な畳み込みを用いたTransCNN-BaseのデフォルトのIRB設定で再構築する。 0.71
The top-1 accuracy is improved from 77.0% to 77.6%. トップ1の精度は77.0%から77.6%に向上した。 0.63
Next, we add the 1st level of H-MHSA. 次に、H-MHSAの第1レベルを追加します。 0.65
Note that we set G1 = 7 for all stages to align the setting with Swin Transformer [17]. g1 = 7 をすべてのステージに設定して、設定を swin transformer [17] に合わせることに注意する。 0.72
Introducing attention into CNN significantly improves the accuracy by 1.6%. cnnに注意を向けると、精度が1.6%向上する。 0.66
We also validate the 2nd level of H-MHSA, like PVT [18]. また、PVT[18]のようにH-MHSAの第2レベルを検証する。 0.66
It achieves a similar result to the 1st-level H-MHSA. これは第1レベルのH-MHSAと同様の結果を得る。 0.61
After that, we use the complete and default version of H-MHSA, which boosts the classification accuracy to 79.9%. その後、H-MHSAの完全およびデフォルトバージョンを使用し、分類精度は79.9%に向上した。 0.77
H-MHSA not only improves accuracy, but also has the ability to process very large images, which is difficult for other methods [17, 18], as discussed in §3.2. H-MHSAは精度を向上するだけでなく、非常に大きな画像を処理できる能力も備えている。
訳抜け防止モード: H - MHSAは精度を向上するだけでなく、非常に大きな画像を処理する能力も備えている。 他のメソッド [17, 18 ] では難しい。
0.68
At last, we add TDB into the network architecture for feature map downsampling, further improving the accuracy to 80.1%. 最後に、フィーチャーマップダウンサンプリングのためにtdbをネットワークアーキテクチャに追加し、さらに80.1%の精度に向上しました。 0.68
The above experimental results suggest that all design choices of TransCNN are effective and necessary. 以上の実験結果から,transcnnの設計選択はすべて有効かつ必要であることが示唆された。
訳抜け防止モード: 上記の実験結果は transcnnの設計上の選択はすべて効果的かつ必要である。
0.81
A pure transformer version of TransCNN vs. PVT [18]. TransCNN vs. PVT [18] の純粋なトランスフォーマーバージョン。 0.75
When we remove all depthwise separable convolutions from TransCNN and train the resulting transformer network for 100 epochs, it achieves 77.7% top-1 accuracy on the ImageNet validation set [26]. TransCNNからすべての深い分離可能な畳み込みを取り除き、100エポックでトランスフォーマーネットワークをトレーニングすると、ImageNet検証セット[26]上で77.7%のトップ1精度が達成される。 0.68
In contrast, the well-known transformer network, PVT [18], attains 75.8% top-1 accuracy under the same condition. 対照的に、よく知られた変圧器ネットワークであるPVT[18]は、同じ条件下で75.8%のトップ1精度を達成する。
訳抜け防止モード: 対照的に、よく知られた変圧器ネットワーク PVT [18 ] である。 同じ条件下で75.8%の トップ1の精度を得る
0.68
This suggests 7 これは 7 0.73
英語(論文から抽出)日本語訳スコア
err 翻訳エラー 0.00
英語(論文から抽出)日本語訳スコア
Table 4: Object detection performance on the MS-COCO val2017 set [57]. 表4: MS-COCO val2017 セットでのオブジェクト検出のパフォーマンス [57]。 0.88
“#Params” refers to the number of parameters. "#Params" はパラメータの数を指します。 0.77
Backbone ResNet18 [3] PVT-Tiny [18] TransCNN-Small (Ours) ResNet50 [3] PVT-Small [18] TransCNN-Base (Ours) Backbone ResNet18 [3] PVT-Tiny [18] TransCNN-Small (Ours) ResNet50 [3] PVT-Small [18] TransCNN-Base (Ours) 0.85
#Params 21.3M 23.0M 22.8M 37.7M 34.2M 36.5M #Params 21.3M 23.0M 22.8M 37.7M 34.2M 36.5M 0.39
AP 31.8 36.7 38.8 36.3 40.4 43.4 AP 31.8 36.7 38.8 36.3 40.4 43.4 0.47
AP50 49.6 56.9 59.8 55.3 61.3 64.2 AP50 49.6 56.9 59.8 55.3 61.3 64.2 0.45
RetinaNet [63] APS AP75 33.6 16.3 22.6 38.9 23.8 41.3 19.3 38.6 25.0 43.0 46.5 27.0 RetinaNet [63] APS AP75 33.6 16.3 22.6 38.9 23.8 41.3 19.3 38.6 25.0 43.0 46.5 27.0 0.51
APM 34.3 38.8 42.6 40.0 42.9 47.4 APM 34.3 38.8 42.6 40.0 42.9 47.4 0.47
APL 43.2 50.0 50.6 48.8 55.7 56.7 APL 43.2 50.0 50.6 48.8 55.7 56.7 0.47
Table 5: Instance segmentation performance on the MS-COCO val2017 set [57]. 表5: MS-COCO val2017 セットのインスタンスセグメンテーションのパフォーマンス [57]。 0.84
“#Params” refers to the number of parameters. "#Params" はパラメータの数を指します。 0.77
APb and APm are for bounding box AP and mask AP, respectively. APbとAPmはそれぞれ、バウンディングボックスAPとマスクAPである。 0.64
Backbone ResNet18 [3] PVT-Tiny [18] TransCNN-Small (Ours) ResNet50 [3] PVT-Small [18] TransCNN-Base (Ours) Backbone ResNet18 [3] PVT-Tiny [18] TransCNN-Small (Ours) ResNet50 [3] PVT-Small [18] TransCNN-Base (Ours) 0.85
#Params 31.2M 32.9M 32.7M 44.2M 44.1M 46.4M #Params 31.2M 32.9M 32.7M 44.2M 44.1M 46.4M 0.39
APb 34.0 36.7 40.5 38.0 40.4 44.0 APb 34.0 36.7 40.5 38.0 40.4 44.0 0.47
APb 50 54.0 59.2 63.0 58.6 62.9 66.4 APb 50 54.0 59.2 63.0 58.6 62.9 66.4 0.50
Mask R-CNN [5] APb 75 36.7 39.3 43.9 41.4 43.8 48.5 Mask R-CNN [5] APb 75 36.7 39.3 43.9 41.4 43.8 48.5 0.59
APm 31.2 35.1 37.5 34.4 37.8 40.2 APm 31.2 35.1 37.5 34.4 37.8 40.2 0.47
APm 50 51.0 56.7 59.8 55.1 60.1 63.3 APm 50 51.0 56.7 59.8 55.1 60.1 63.3 0.50
APm 75 32.7 37.3 40.3 36.7 40.3 43.2 APm 75 32.7 37.3 40.3 36.7 40.3 43.2 0.50
and FLOPs of each model. そして各モデルのFLOP。 0.68
The results are summarized in Tab. 結果はタブにまとめられている。 0.76
3. We can observe that TransCNN achieves state-of-the-art performance. 3. TransCNNが最先端のパフォーマンスを達成するのを観察できる。 0.71
Specifically, with similar numbers of parameters and FLOPs, TransCNN-Small outperforms its counterparts by a large margin, i.e., 9.5%, 7.1%, and 4.2% higher in classification accuracy than ResNet18 [3], DeiT-Ti [50], and PVT-Tiny [18], respectively. 具体的には、パラメータとFLOPの類似数により、TransCNN-SmallはResNet18[3]、DeiT-Ti [50]、PVT-Tiny [18]よりも、大きなマージン、すなわち9.5%、7.1%、および4.2%高い分類精度で、それを上回る。 0.62
TransCNNBase also achieves significantly better accuracy than other counterparts with a similar number of parameters. TransCNNBaseは、同じ数のパラメータを持つ他のパラメータよりもはるかに精度が高い。 0.70
When compared to the counterparts with much more parameters, TransCNN-Base attains very competitive accuracy. パラメータがはるかに多い相手と比較すると、transcnnベースの精度は非常に高い。 0.59
In our experiments, we also find that, when increasing the number of training epochs from 100 to 300, the accuracy of TransCNN-Base is improved from 80.1 (see in Tab. また,本実験では,100から300にトレーニングエポック数が増加すると,TransCNN-Baseの精度が80.1に向上することが確認された(Tab参照)。 0.85
2) to 82.2%, while PVT-Small [18] is improved from 75.8% to 79.8% under the same setting. 2)から82.2%, PVT-Small[18]は75.8%から79.8%に改善した。 0.84
The performance gap between TransCNN and PVT with 100 training epochs is larger than that with 300 training epochs. transcnnとpvtのパフォーマンスギャップは,100回のトレーニングエポックでは300回のトレーニングエポックよりも大きい。 0.68
This may imply that the transformer and CNN composition would lead to faster network convergence over previous pure transformer networks. これは、変換器とCNNの構成が、以前の純粋な変換器ネットワークよりも高速なネットワーク収束をもたらすことを示唆している。
訳抜け防止モード: これはつまり トランスフォーマーとcnnの構成は、従来の純粋なトランスフォーマーネットワークよりも高速なネットワーク収束につながる。
0.73
These experiments demonstrate the effectiveness of TransCNN in fundamental image recognition. これらの実験は、基本画像認識におけるTransCNNの有効性を示す。 0.66
Note that TransCNN can provide feature pyramids needed for many downstream computer vision tasks, while some transformer networks such as ViT [15], DeiT [50], T2T-ViT [47], and TNT [53], are particularly designed for image classification. transcnnは多くの下流コンピュータビジョンタスクに必要な機能ピラミッドを提供することができるが、vit [15]、deit [50]、t2t-vit [47]、tnt [53]などのトランスフォーマーネットワークは画像分類のために特に設計されている。 0.75
4.4 Object Detection and Instance Segmentation 4.4 オブジェクト検出とインスタンス分割 0.84
Since object detection and instance segmentation are fundamental tasks in computer vision, we apply the proposed TransCNN-Base to both tasks to further evaluate the effectiveness of TransCNN. 対象検出とインスタンス分割はコンピュータビジョンの基本的なタスクであるため,提案するtranscnnベースを両タスクに適用し,transcnnの有効性をさらに評価する。 0.72
Specifically, we utilize two well-known detectors, i.e., RetinaNet [63] for object detection and Mask R-CNN [5] for instance segmentation. 具体的には、物体検出にはRetinaNet[63]と、例えばMask R-CNN[5]の2つのよく知られた検出器を用いる。 0.72
TransCNN is compared to ResNet [3] and another popular transformed-based network, i.e., PVT [18], by only replacing the backbone of the above two detectors. TransCNNは、上の2つの検出器のバックボーンを置き換えることによって、ResNet[3]および他の人気のある変換ベースネットワークであるPVT[18]と比較される。
訳抜け防止モード: TransCNN は ResNet [ 3 ] と他の人気のある変換ベースネットワークと比較されます。 PVT [18 ] by 上の2つの検出器の バックボーンを交換するだけだ
0.83
Experiments are conducted on the large-scale MS-COCO dataset [57] by training on train2017 set (∼118K images) and evaluating on val2017 set (5K images). 大規模MS-COCOデータセット [57] 上で,列車2017セット(118K画像)とval2017セット(5K画像)のトレーニングにより実験を行った。 0.73
We adopt MMDection toolbox [64] for experiments and follow the experimental settings of PVT [18] for a fair comparison. mmdection toolbox [64] を実験に採用し,pvt [18] の実験的な設定を公平に比較した。 0.77
During training, we initialize the backbone weights with the ImageNet-pretrained models. トレーニング中、ImageNet-pretrainedモデルでバックボーン重量を初期化する。 0.73
The detectors are fine-tuned using the AdamW optimizer [60] with an initial learning rate of 1 × 10−4 that is decreased by 10 times after the 8th and 11th epochs, respectively. 検出器はadamwオプティマイザ[60]を用いて微調整され、初期学習速度は1×10−4であり、8期と11期以降にそれぞれ10倍減少する。 0.67
The whole training lasts for 12 epochs with a batch size of 16. トレーニング全体の期間は12時間で、バッチサイズは16。 0.61
Each training image is resized to a shorter side of 800 pixels, but the longer side is not allowed to exceed 1333 pixels. 各トレーニング画像は800ピクセルの短辺にリサイズされるが、長辺は1333ピクセルを超えることは許されない。 0.66
During testing, each image is fixed to a shorter side of 800 pixels. テスト中、各画像は800ピクセルの短辺に固定される。 0.63
We set G0 = {16, 8, 4} for t-th stage, t = {2, 3, 4}, respectively. g0 = {16, 8, 4} を t 番目のステージ、t = {2, 3, 4} をそれぞれ設定する。 0.83
The fifth stage is processed directly. 第5段階は直接処理される。 0.83
9 9 0.85
英語(論文から抽出)日本語訳スコア
The results are displayed in Tab. 結果はタブに表示される。 0.82
4. We can see that TransCNN substantially improves the accuracy over other network architectures in all cases with a similar number of parameters. 4. TransCNNは、同じ数のパラメータを持つ全てのケースにおいて、他のネットワークアーキテクチャよりも精度が大幅に向上する。 0.78
Specifically, when RetinaNet [63] is adopted as the detector, TransCNN-Base attains 7.1%, 8.9%, 7.9% higher performance over ResNet50 [3] and 3.0%, 2.9%, 3.5% higher performance over PVT [18] in terms of AP, AP50, and AP75, respectively. 具体的には、RetinaNet[63]が検出器として採用されると、TransCNN-BaseはResNet50[3]より7.1%、8.9%、3.0%、2.9%、3.5%、PVT[18]よりそれぞれAP、AP50、AP75よりもパフォーマンスが向上する。
訳抜け防止モード: 具体的には、RetinaNet[63]を検出器として採用する場合。 TransCNN - Base が ResNet50 よりも 7.1 %, 8.9 %, 7.9% % 高いパフォーマンスを達成した[3] and 3.0 %, 2.9% %, 3.5 % higher performance than PVT [18 ] in terms of AP50, AP75, respectively。
0.74
For Mask R-CNN [5], TransCNN-Base achieves 3.9%, 3.6%, and 4.9% higher results than PVT [18] in terms of APb, APb 75 (bounding box metrics), respectively. マスク r-cnn [5] の場合、transcnn-base はそれぞれ apb と apb 75 (bounding box metrics) の点で pvt [18] よりも 3.9%, 3.6%, 4.9% 高い結果が得られる。 0.68
TransCNN-Base is 2.4%, 3.1%, and 3.0% better than PVT [18] in terms of APm, APm 75 (mask metrics), respectively. TransCNN-Baseは、それぞれAPm、APm 75(マスクメトリクス)の点でPVT[18]よりも2.4%、3.1%、3.0%良い。 0.63
Such significant improvement in object detection and instance segmentation shows the superiority of TransCNN in learning effective representations, making TransCNN have the potential to be applied to various computer vision tasks. このようなオブジェクト検出とインスタンスセグメンテーションの大幅な改善は、効果的な表現の学習におけるTransCNNの優位性を示し、TransCNNは様々なコンピュータビジョンタスクに適用できる可能性を持っている。 0.71
50, and APm 50, and APb 50,APm 50,APb 0.57
5 Conclusion This paper tackles the low-efficiency flaw of vision transformer caused by the high computational/space complexity of MHSA. 5 結論 本稿では,MHSAの高計算・空間複雑さに起因する視覚変換器の低効率欠陥に対処する。 0.66
To this end, we propose a hierarchical framework for computing MHSA, i.e., H-MHSA, in order to decrease the computational/space complexity. この目的のために,計算/空間の複雑さを低減するために,MHSA,すなわちH-MHSAの階層的フレームワークを提案する。 0.76
Compared to previous counterparts [18, 17] in this direction, H-MHSA has two significant advantages: i) modelling global dependencies of the input directly and ii) having the ability to process large input images with ease. この方向の以前の[18, 17]と比較して、H-MHSAには2つの大きな利点がある。
訳抜け防止モード: この方向の以前の[18, 17]と比較してみましょう。 H-MHSAには2つの大きな利点がある。 一 入力のグローバル依存関係を直接モデル化すること ii) 大きな入力画像を簡単に処理できる。
0.71
Moreover, we propose to plug the flexible H-MHSA into CNNs, instead of using an MLP after attention computation for feature enhancement as in traditional vision transformers [15]. さらに,従来の視覚変換器(15)のような機能強化のために,注意計算後のMLPの代わりに,柔軟なH-MHSAをCNNにプラグインすることを提案する。 0.72
Hence, the proposed TransCNN inherits the merits of both transforms and CNNs, compatible with previous advanced transform [47–50] and CNN [28, 3, 31, 34] techniques. したがって、提案したTransCNNは、以前の高度な変換 [47-50] と CNN [28, 3, 31, 34] 技術と互換性のある変換とCNNの両方の利点を継承する。
訳抜け防止モード: したがって、提案したTransCNNは変換とCNNの両方の利点を継承する。 以前の先進変換 [47-50 ] と CNN [28] との互換性 3 , 31 , 34 ] techniques .
0.82
Experiments on image classification, object detection, and instance segmentation demonstrate the effectiveness and potential of TransCNN in representation learning. 画像分類、オブジェクト検出、インスタンス分割の実験は、表現学習におけるTransCNNの有効性と可能性を示している。 0.70
The limitation of this paper would be that we only adopt some typical parameter settings without carefully fine-tuning so that these parameter settings may not be optimal. 本論文の限界は,パラメータ設定が最適にならないよう,注意深く微調整することなく,いくつかの典型的なパラメータ設定のみを採用することである。 0.75
The reason that we only use typical settings is that we want to show the generality of TransCNN, as discussed in §3.3. 典型的な設定しか使用しない理由は、図3.3で述べたように、TransCNNの汎用性を示したいからです。
訳抜け防止モード: 典型的な設定しか使わない理由は 3.3で論じられたように、我々はtranscnnの一般性を示したい。
0.67
In the future, we believe that neural architecture search techniques can be applied to TransCNN for optimal settings, just like CNN [38, 37]. 将来的には、CNN[38, 37]と同じように、最適な設定のために、ニューラルネットワーク検索技術がTransCNNに適用できると考えています。 0.68
Of course, this is out of the scope of this paper. もちろん、これはこの論文の範囲外です。 0.59
References [1] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. 参照: Alex Krizhevsky、Ilya Sutskever、Geoffrey E Hinton。 0.52
ImageNet classification with deep convolutional 深層畳み込みによるイメージネット分類 0.73
neural networks. ニューラルネットワーク。 0.65
In NeurIPS, pages 1097–1105, 2012. NeurIPS, page 1097–1105, 2012 0.73
1, 2 [2] Karen Simonyan and Andrew Zisserman. 1, 2 [2] カレン・シモンヤンとアンドリュー・ジッセルマン。 0.72
Very deep convolutional networks for large-scale image recogni- 大規模画像認識のための深層畳み込みネットワーク 0.79
tion. In ICLR, 2015. ティメント 2015年、ICLR。 0.46
2 [3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2 [3]開明、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.69
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In IEEE CVPR, pages 770–778, 2016. IEEE CVPR』770-778頁、2016年。 0.86
2, 6, 8, 9, 10 2, 6, 8, 9, 10 0.85
[4] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. [4]シェーキング・レン、カイミング・ヘ、ロス・ギルシック、ジャン・サン。 0.42
Faster R-CNN: Towards real-time object より高速なR-CNN:リアルタイムオブジェクトを目指して 0.52
detection with region proposal networks. エリア提案ネットワークによる検出。 0.76
IEEE TPAMI, 39(6):1137–1149, 2016. IEEE TPAMI, 39(6):1137–1149, 2016 0.94
[5] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. 5]カイミング・ヘ、ジョージア・グキオクサリ、ピオトル・ドラール、ロス・ギルシック。 0.53
Mask R-CNN. In IEEE ICCV, pages マスクR-CNN。 IEEE ICCV、ページ 0.63
2961–2969, 2017. 2961–2969, 2017. 0.84
9, 10 [6] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. 9, 10 六] 平州宗, 鑑平志, 清州経, 玄興王, 慈阿也慈阿. 0.70
Pyramid scene parsing ピラミッドのシーンパーシング 0.67
network. In IEEE CVPR, pages 2881–2890, 2017. ネットワーク IEEE CVPR, page 2881–2890, 2017。 0.67
[7] Yun Liu, Ming-Ming Cheng, Xiaowei Hu, Jia-Wang Bian, Le Zhang, Xiang Bai, and Jinhui Tang. [7]雲龍、明明、Xiaowei Hu、Jia-Wang Bian、Le Zhang、Xiang Bai、Jinhui Tang。
訳抜け防止モード: [7 ]ユン・リュー,明,明,明,Xiaowei Hu,Jia-Wang Bian, Le Zhang , Xiang Bai , Jinhui Tang 。
0.82
Richer convolutional features for edge detection. 富豪 エッジ検出のための畳み込み特徴。 0.64
IEEE TPAMI, 41(8):1939–1946, 2019. IEEE TPAMI, 41(8): 1939–1946, 2019 0.94
[8] Zenglin Shi, Le Zhang, Yun Liu, Xiaofeng Cao, Yangdong Ye, Ming-Ming Cheng, and Guoyan Zheng. 8]zenglin shi、le zhang、yun liu、xiaofeng cao、yangdong ye、ming-ming cheng、guoyan zheng。
訳抜け防止モード: [8 ]禅林師・ル・チャン・ユン・リュー Xiaofeng Cao, Yangdong Ye, Ming - Ming Cheng, とGuoyan Zheng。
0.76
Crowd counting with deep negative correlation learning. 深い負の相関学習を伴う群衆カウント。 0.78
In IEEE CVPR, pages 5382–5390, 2018. IEEE CVPRでは、2018年5382-5390頁。 0.73
[9] Shi-Jie Li, Yazan AbuFarha, Yun Liu, Ming-Ming Cheng, and Juergen Gall. [9]李四次、阿武ファーラ八山、李ユン、明明、ジュエルゲン・ギャル 0.50
MS-TCN++: Multi-stage MS-TCN++: マルチステージ 0.49
temporal convolutional network for action segmentation. 行動セグメンテーションのための時間畳み込みネットワーク 0.70
IEEE TPAMI, 2020. IEEE TPAMI、2020年。 0.91
[10] Guang-Yu Nie, Ming-Ming Cheng, Yun Liu, Zhengfa Liang, Deng-Ping Fan, Yue Liu, and Yongtian Wang. [10]広義寧、明明陳、雲龍、Zhengfa Liang、Deng-Ping Fan、Yue Liu、Yongtian Wang。
訳抜け防止モード: [10 ]広-英,明-明, Yun Liu, Zhengfa Liang, Deng - Ping Fan, Yue Liu そしてヨンチアン・ウォン。
0.83
Multi-level context ultra-aggregation for stereo matching. ステレオマッチングのためのマルチレベルコンテキスト・ウルトラアグリゲーション 0.53
In IEEE CVPR, pages 3283–3291, 2019. IEEE CVPRでは、3283–3291, 2019。 0.89
10 10 0.85
英語(論文から抽出)日本語訳スコア
[11] Yun Liu, Ming-Ming Cheng, Deng-Ping Fan, Le Zhang, JiaWang Bian, and Dacheng Tao. [11]ユン・リ、明明、Deng-Ping Fan、Le Zhang、JiaWang Bian、Dacheng Tao。 0.65
Semantic edge セマンティックエッジ 0.51
detection with diverse deep supervision. 多様な深層監視による検出 0.75
arXiv preprint arXiv:1804.02864, 2018. arXiv preprint arXiv:1804.02864, 2018 0.80
1 [12] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz 1 [12]Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N Gomez,Lukasz 0.80
Kaiser, and Illia Polosukhin. KaiserとIllia Polosukhin。 0.64
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In NeurIPS, pages 6000–6010, 2017. 2017年、6000-6010頁。 0.53
1, 3, 8 [13] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 1, 3, 8 [13]Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.79
BERT: Pre-training of deep BERT: Deepの事前トレーニング 0.91
bidirectional transformers for language understanding. 言語理解のための双方向トランスフォーマー。 0.68
In NAACL-HLT, pages 4171–4186, 2019. NAACL-HLT, page 4171–4186, 2019。 0.79
1, 3 [14] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G Carbonell, Quoc Le, and Ruslan Salakhutdinov. 1, 3 [14]Zihang Dai、Zhilin Yang、Yiming Yang、Jaime G Carbonell、Quoc Le、Ruslan Salakhutdinov。 0.72
Transformer-XL: Attentive language models beyond a fixed-length context. Transformer-XL: 固定長コンテキストを超えた注意型言語モデル。 0.68
In ACL, pages 2978–2988, 2019. ACL』2978-2988, 2019年。 0.73
1, 3 [15] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 1, 3 Alexey Dosovitskiy氏、Lucas Beyer氏、Alexander Kolesnikov氏、Dirk Weissenborn氏、Xiaohua Zhai氏、Thomas Unterthiner氏、Mostafa Dehghani氏、Matthias Minderer氏、Georg Heigold氏、Sylvain Gelly氏、Jakob Uszkoreit氏、Neil Houlsby氏。 0.78
An image is worth 16x16 words: Transformers for image recognition at scale. 画像は16×16ワードで、画像認識のためのトランスフォーマーである。 0.67
In ICLR, 2021. 1, 2, 3, 6, 8, 9, 10 2021年。 1, 2, 3, 6, 8, 9, 10 0.61
[16] Byeongho Heo, Sangdoo Yun, Dongyoon Han, Sanghyuk Chun, Junsuk Choe, and Seong Joon Oh. [16]平等平、サンドゥー・ユン、ドンギョン・ハン、サンギュク・チュン、ジュンジュン・オ。
訳抜け防止モード: [16 ]東方平、三道王元、東行音漢、 Sanghyuk Chun, Junsuk Choe, and Seong Joon Oh
0.72
Rethinking spatial dimensions of vision transformers. 視覚変換器の空間次元の再考 0.68
arXiv preprint arXiv:2103.16302, 2021. arXiv preprint arXiv:2103.16302, 2021 0.81
1, 2, 3, 5, 6 1, 2, 3, 5, 6 0.85
[17] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. [17]Ze Liu、Yutong Lin、Yue Cao、Han Hu、Yixuan Wei、Zhen Zhang、Stephen Lin、Baining Guo。
訳抜け防止モード: [17 ]Ze Liu, Yutong Lin, Yue Cao, Han Hu,Yixuan Wei,Zhen Zhang,Stephen Lin とBaining Guo。
0.76
Swin transformer: Hierarchical vision transformer using shifted windows. swin transformer:シフトウィンドウを用いた階層型視覚トランスフォーマー。 0.76
arXiv preprint arXiv:2103.14030, 2021. arXiv preprint arXiv:2103.14030, 2021 0.81
1, 3, 5, 7, 8, 10 1, 3, 5, 7, 8, 10 0.85
[18] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. [18]ウェンハイ・ワン、エンゼ・シー、Xiang Li、Deng-Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shao。 0.64
Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. ピラミッドビジョントランスフォーマー:畳み込みのない密集した予測のための多用途なバックボーン。 0.68
arXiv preprint arXiv:2102.12122, 2021. arXiv preprint arXiv:2102.12122, 2021 0.81
1, 3, 5, 6, 7, 8, 9, 10 1, 3, 5, 6, 7, 8, 9, 10 0.85
[19] Weijian Xu, Yifan Xu, Tyler Chang, and Zhuowen Tu. [19]Weijian Xu、Yifan Xu、Tyler Chang、Zhuowen Tu。 0.65
Co-Scale conv-attentional image transformers. co-Scale conv-attentional image transformer 0.72
arXiv preprint arXiv:2104.06399, 2021. arXiv preprint arXiv:2104.06399, 2021 0.81
2, 3 [20] Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, and Christoph 2, 3 20]ハチファン,ボ・クオン,カルッティキーア・マンガラム,ヤン・リ,ジチェン・ヤン,ジテンドラ・マリク,クリストフ
訳抜け防止モード: 2, 3 [20 ]Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, and Christoph
0.85
Feichtenhofer. Feichtenhofer 0.49
Multiscale vision transformers. マルチスケールビジョントランス。 0.37
arXiv preprint arXiv:2104.11227, 2021. arXiv preprint arXiv:2104.11227, 2021 0.81
1, 2, 3, 5, 6 1, 2, 3, 5, 6 0.85
[21] Jie Hu, Li Shen, Samuel Albanie, Gang Sun, and Enhua Wu. [21]Jie Hu、Li Shen、Samuel Albanie、Gang Sun、Enhua Wu。 0.64
Squeeze-and-Excitati on networks. Squeeze-and-Excitati on Network 0.54
IEEE TPAMI, 42(8):2011–2023, 2020. IEEE TPAMI, 42(8):2011–2023, 2020。 0.86
2, 3 [22] Antonio Criminisi, Patrick Pérez, and Kentaro Toyama. 2, 3 【22】アントニオ・クリミニシ、パトリック・ペレス、富山健太郎 0.68
Region filling and object removal by exemplar- exemplarによる領域充填と物体除去- 0.80
based image inpainting. イメージ・インペインティングです 0.67
IEEE TIP, 13(9):1200–1212, 2004. IEEE TIP, 13(9):1200-1212, 2004 0.94
2, 5 [23] Kaiming He, Jian Sun, and Xiaoou Tang. 2, 5 [23]開明(かいみょう)、Jian Sun、Xiaoo Tang。 0.71
Guided image filtering. ガイド画像フィルタリング。 0.71
IEEE TPAMI, 35(6):1397–1409, 2012. IEEE TPAMI, 35(6):1397–1409, 2012 0.95
[24] M Kivanc Mihcak, Igor Kozintsev, Kannan Ramchandran, and Pierre Moulin. M Kivanc Mihcak, Igor Kozintsev, Kannan Ramchandran, Pierre Moulin。 0.55
Low-complexity image denoising based on statistical modeling of wavelet coefficients. 低複素像 ウェーブレット係数の統計的モデル化に基づく雑音化 0.73
IEEE SPL, 6(12):300–303, 1999. IEEE SPL, 6(12):300–303, 1999。 0.89
2, 5 [25] Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. 2, 5 Yann LeCun氏、Léon Bottou氏、Yoshua Bengio氏、Patrick Haffner氏。 0.72
Gradient-based learning applied to グラデーションベース学習の適用 0.75
document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998. 文書認識。 IEEE 86(11):2278–2324, 1998 年。 0.71
2 [26] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, ImageNet large scale visual recognition 2 [26]オルガ・ルサコフスキー、Jia Deng、Hao Su、Jonathan Krause、Sanjeev Satheesh、Sean Ma、Zhiheng Huang、ImageNetの大規模視覚認識 0.81
Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al challenge. Andrej Karpathy氏、Aditya Khosla氏、Michael Bernstein氏など。 0.70
IJCV, 115(3):211–252, 2015. IJCV, 115(3):211–252, 2015 0.95
2, 3, 5, 6, 7, 8 2, 3, 5, 6, 7, 8 0.85
[27] Rupesh Kumar Srivastava, Klaus Greff, and Jürgen Schmidhuber. [27]Rupesh Kumar Srivastava, Klaus Greff, Jürgen Schmidhuber 0.63
Highway networks. arXiv preprint 高速道路網。 arXiv プレプリント 0.77
arXiv:1505.00387, 2015. arXiv:1505.00387, 2015 0.71
2 [28] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. 2 [28]Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich。 0.82
Going deeper with convolutions. 畳み込みでさらに深く進む。 0.61
In IEEE CVPR, pages 1–9, 2015. IEEE CVPR、2015年1-9頁。 0.73
2, 10 [29] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. 2, 10 [29]Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens、Zbigniew Wojna。 0.75
Rethinking the inception architecture for computer vision. 再考する コンピュータビジョンのためのインセプションアーキテクチャ。 0.62
In IEEE CVPR, pages 2818–2826, 2016. IEEE CVPR, page 2818–2826, 2016。 0.86
2, 7 [30] Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander Alemi. 2, 7 30]Christian Szegedy、Sergey Ioffe、Vincent Vanhoucke、Alexander Alemi。 0.73
Inception-v4, Inception-ResNet Inception-v4, Inception-ResNet 0.52
and the impact of residual connections on learning. 残りのつながりが学習に与える影響です 0.62
In AAAI, pages 4278–4284, 2017. 2017年、4278-4284頁。 0.52
2 [31] Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, and Kaiming He. 2 [31]Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He。 0.78
Aggregated residual transforma- 凝集残留トランスフォーマ- 0.63
tions for deep neural networks. ディープニューラルネットワークの オプションです 0.49
In IEEE CVPR, pages 1492–1500, 2017. IEEE CVPR, page 1492–1500, 2017。 0.87
2, 8, 10 11 2, 8, 10 11 0.85
英語(論文から抽出)日本語訳スコア
[32] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and Kilian Q Weinberger. Gao Huang氏、Zhuang Liu氏、Laurens Van Der Maaten氏、Kilian Q Weinberger氏。 0.54
Densely connected convolutional networks. 密接な接続 畳み込みネットワーク 0.55
In IEEE CVPR, pages 4700–4708, 2017. IEEE CVPR、2017年4700-4708頁。 0.77
2 [33] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. 2 [33]Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam。 0.82
MobileNets: Efficient convolutional neural networks for mobile vision applications. MobileNets: モバイルビジョンアプリケーションのための効率的な畳み込みニューラルネットワーク。 0.76
arXiv preprint arXiv:1704.04861, 2017. arXiv preprint arXiv:1704.04861, 2017 0.79
2 [34] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. 2 Mark Sandler氏、Andrew Howard氏、Menglong Zhu氏、Andrey Zhmoginov氏、Liang-Chieh Chen氏。 0.78
MobileNetV2: MobileNetV2 0.75
Inverted residuals and linear bottlenecks. 反転残差と線形ボトルネック。 0.70
In IEEE CVPR, pages 4510–4520, 2018. IEEE CVPR, page 4510–4520, 2018。 0.83
2, 4, 6, 7, 10 2, 4, 6, 7, 10 0.85
[35] Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun. [35]Xiangyu Zhang、Xinyu Zhou、Mengxiao Lin、Jian Sun。 0.69
ShuffleNet: An extremely efficient convolu- shufflenet: 極めて効率的なconvolu 0.79
tional neural network for mobile devices. モバイル機器用集中型ニューラルネットワーク。 0.69
In IEEE CVPR, pages 6848–6856, 2018. IEEE CVPRでは、6848-6856, 2018。 0.79
2 [36] Ningning Ma, Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun. 2 [36]寧明摩、Xiangyu Zhang、Hay-Tao Zheng、Jian Sun。 0.81
ShuffleNet V2: Practical guidelines for ShuffleNet V2: 実践的なガイドライン 0.86
efficient CNN architecture design. 効率的なCNNアーキテクチャ設計。 0.66
In ECCV, pages 116–131, 2018. ECCV』116-111頁、2018年。 0.71
2 [37] Mingxing Tan, Bo Chen, Ruoming Pang, Vijay Vasudevan, Mark Sandler, Andrew Howard, and Quoc V Le. 2 [37]Mingxing Tan、Bo Chen、Ruoming Pang、Vijay Vasudevan、Mark Sandler、Andrew Howard、Quoc V Le。
訳抜け防止モード: 2 [37 ]明の丹、坊陳、黄の唐、 Vijay Vasudevan氏、Mark Sandler氏、Andrew Howard氏、Quoc V Le氏。
0.79
MnasNet: Platform-aware neural architecture search for mobile. MnasNet: モバイル用のプラットフォーム対応ニューラルアーキテクチャ検索。 0.74
In IEEE CVPR, pages 2820–2828, 2019. IEEE CVPRでは、2820-2828, 2019。 0.83
2, 10 [38] Mingxing Tan and Quoc Le. 2, 10 [38]mingxing tan と quoc le です。 0.74
EfficientNet: Rethinking model scaling for convolutional neural networks. EfficientNet: 畳み込みニューラルネットワークのモデルスケーリングを再考する。 0.81
In ICML, pages 6105–6114. 院 ICML 6105-6114頁。 0.61
PMLR, 2019. 2019年、PMLR。 0.72
2, 7, 10 [39] Max Jaderberg, Karen Simonyan, Andrew Zisserman, and Koray Kavukcuoglu. 2, 7, 10 39] Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu。 0.78
Spatial transformer networks. 空間変換器 ネットワーク。 0.65
In NeurIPS, 2015. 2015年、NeurIPSより。 0.80
2 [40] Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie, Jian Shao, Wei Liu, and Tat-Seng Chua. 2 [40]長陳・漢王張・順Xiao・Liqiang Nie・Jian Shao・Wei Liu・Tat-Seng Chua 0.75
SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning. SCA-CNN:画像キャプションのための畳み込みネットワークにおける空間的およびチャネル的注意。 0.65
In IEEE CVPR, pages 5659–5667, 2017. IEEE CVPR, page 5659–5667, 2017。 0.85
3 [41] Fei Wang, Mengqing Jiang, Chen Qian, Shuo Yang, Cheng Li, Honggang Zhang, Xiaogang Wang, and Xiaoou Tang. 3 [41]Fei Wang、Mengqing Jiang、Chen Qian、Shuo Yang、Cheng Li、Honggang Zhang、Xiaogang Wang、Xiaou Tang。 0.76
Residual attention network for image classification. 画像分類のための残留注意ネットワーク 0.77
In IEEE CVPR, pages 3156–3164, 2017. IEEE CVPR, page 3156–3164, 2017。 0.85
3 [42] Sanghyun Woo, Jongchan Park, Joon-Young Lee, and In So Kweon. 3 [42]サンギュンウー、ジョンチャン・パーク、ジュンヨン・リー、イン・ソ・クワイン。 0.73
CBAM: Convolutional block attention CBAM:革命的ブロックの注目 0.68
module. In ECCV, pages 3–19, 2018. モジュール。 ECCV、2018年3-19頁。 0.74
3 [43] Jongchan Park, Sanghyun Woo, Joon-Young Lee, and In So Kweon. 3 [43]Jongchan Park、Sanghyun Woo、Joon-Young Lee、そしてIn So Kweon。 0.86
BAM: Bottleneck attention module. BAM: Bottleneck attention module 0.68
In BMVC, 2018. 2018年、BMVCに入社。 0.52
3 [44] Xiang Li, Wenhai Wang, Xiaolin Hu, and Jian Yang. 3 [44]Xiang Li、Wenhai Wang、Xiaolin Hu、Jian Yang。 0.75
Selective kernel networks. 選択型カーネルネットワーク。 0.75
In IEEE CVPR, pages IEEE CVPR、ページ 0.66
510–519, 2019. 510–519, 2019. 0.84
3 [45] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. 3 [45]Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He。 0.81
Non-local neural networks. 非局所ニューラルネットワーク。 0.76
In IEEE CVPR, pages 7794–7803, 2018. IEEE CVPR, page 7794–7803, 2018。 0.68
3 [46] Hang Zhang, Chongruo Wu, Zhongyue Zhang, Yi Zhu, Haibin Lin, Zhi Zhang, Yue Sun, Tong He, Jonas Mueller, R Manmatha, et al ResNeSt: Split-attention networks. 3 [46]Hang Zhang, Chongruo Wu, Zhongyue Zhang, Yi Zhu, Haibin Lin, Zhi Zhang, Yue Sun, Tong He, Jonas Mueller, R Manmatha, et al ResNeSt: Split-attention network。 0.85
arXiv preprint arXiv:2004.08955, 2020. arXiv preprint arXiv:2004.08955, 2020 0.80
3, 8 [47] Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis EH Tay, Jiashi Feng, and Shuicheng Yan. 3, 8 [47]李元、元文陳、唐王、ワイハウユ、ユジュン・シー、フランシス・E・タイ、ジアシ・フェン、シュイヒョン・ヤン。
訳抜け防止モード: 3, 8 [47 ]李元、元の陳、唐王、 Weihao Yu, Yujun Shi, Francis EH Tay, Jiashi Feng そして、Shuicheng Yan。
0.78
Tokens-to-token ViT: Training vision transformers from scratch on ImageNet. Tokens-to-ken ViT: ImageNetでスクラッチからビジョントランスフォーマーをトレーニングする。 0.63
arXiv preprint arXiv:2101.11986, 2021. arXiv preprint arXiv:2101.1 1986, 2021 0.72
3, 6, 8, 9, 10 3, 6, 8, 9, 10 0.85
[48] Hugo Touvron, Matthieu Cord, Alexandre Sablayrolles, Gabriel Synnaeve, and Hervé Jégou. [48]Hugo Touvron、Matthieu Cord、Alexandre Sablayrolles、Gabriel Synnaeve、Hervé Jégou。 0.62
Going deeper with image transformers. より深く進む イメージ・トランスフォーマーで 0.65
arXiv preprint arXiv:2103.17239, 2021. arXiv preprint arXiv:2103.17239, 2021 0.80
3 [49] Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Qibin Hou, and Jiashi Feng. 3 [49]大韓周、平康、西大寺金、林江陽、Xiaochen Lian、Qibin Hou、Jiashi Feng。
訳抜け防止モード: 3 [49 ]ダカン・周,ビンギ・カン,キヤオジエ・ジン, Linjie Yang, Xiaochen Lian, Qibin Hou, Jiashi Feng
0.73
DeepViT: Towards deeper vision transformer. DeepViT 深部視覚トランスフォーマーに向けて 0.57
arXiv preprint arXiv:2103.11886, 2021. arXiv preprint arXiv:2103.11886, 2021 0.81
3 [50] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. 3 Hugo Touvron氏、Matthieu Cord氏、Matthijs Douze氏、Francisco Massa氏、Alexandre Sablayrolles氏、Hervé Jégou氏。 0.76
Training data-efficient image transformers & distillation through attention. データ効率のよい画像変換器の訓練と注意による蒸留 0.64
arXiv preprint arXiv:2012.12877, 2020. arXiv preprint arXiv:2012.12877, 2020 0.81
3, 6, 7, 8, 9, 10 3, 6, 7, 8, 9, 10 0.85
[51] Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, and Ashish Vaswani. aravind srinivas, tsung-yi lin, niki parmar, jonathon shlens, pieter abbeel, ashish vaswani。 0.48
Bottleneck transformers for visual recognition. 視覚認識のためのボトルネックトランスフォーマー。 0.61
arXiv preprint arXiv:2101.11605, 2021. arXiv preprint arXiv:2101.11605, 2021 0.80
3 [52] Stefan Elfwing, Eiji Uchibe, and Kenji Doya. 3 [52]ステファン・エルフイング、内部英二、土屋健二 0.64
Sigmoid-weighted linear units for neural network function ニューラルネットワーク機能のためのsgmoid-weighted linear unit 0.69
approximation in reinforcement learning. 強化学習における近似。 0.70
Neural Networks, 107:3–11, 2018. Neural Networks, 107:3–11, 2018。 0.75
4, 6, 8 12 4, 6, 8 12 0.85
英語(論文から抽出)日本語訳スコア
[53] Kai Han, An Xiao, Enhua Wu, Jianyuan Guo, Chunjing Xu, and Yunhe Wang. [53]カイ・ハン、アン・シアオ、エンフア・ウー、ジャンユ・グオ、チュンジュン・スー、ユンヘ・ワン 0.49
Transformer in transformer. arXiv preprint arXiv:2103.00112, 2021. 変圧器の変圧器 arXiv preprint arXiv:2103.00112, 2021 0.72
6, 8, 9 [54] Yawei Li, Kai Zhang, Jiezhang Cao, Radu Timofte, and Luc Van Gool. 6, 8, 9 [54]Yawei Li, Kai Zhang, Jiezhang Cao, Radu Timofte, Luc Van Gool。 0.79
LocalViT: Bringing locality to LocalViT: ローカリティを実現する 0.79
vision transformers. 視覚トランスフォーマー。 0.62
arXiv preprint arXiv:2104.05707, 2021. arXiv preprint arXiv:2104.05707, 2021 0.81
[55] Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu, and Wei Wu. [55]クン元、シャペン・グオ、ジヴァイ・リウ、周青純、ユウ、ウーイ 0.37
Incorporating convolution designs into visual transformers. 包括的畳み込み 視覚変換器にデザインします 0.52
arXiv preprint arXiv:2103.11816, 2021. arXiv preprint arXiv:2103.11816, 2021 0.81
6 [56] Dan Hendrycks and Kevin Gimpel. 6 56] Dan Hendrycks氏とKevin Gimpel氏。 0.85
Gaussian error linear units (GELUs). ガウス誤差線形単位(GELU)。 0.63
arXiv preprint arXiv:1606.08415, arXiv preprint arXiv:1606.08415, 0.65
2016. 6, 8 2016. 6, 8 0.85
[57] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. 57]tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C Lawrence Zitnick。 0.79
Microsoft COCO: Common objects in context. Microsoft COCO: コンテキスト内の共通オブジェクト。 0.84
In ECCV, pages 740–755, 2014. 2014年、ECCV740-755頁。 0.69
6, 9 [58] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al PyTorch: An imperative style, high-performance deep learning library. 6, 9 58]Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al PyTorch: 命令型スタイルで高性能なディープラーニングライブラリ。 0.82
In NeurIPS, pages 8026–8037, 2019. NeurIPS, page 8026–8037, 2019。 0.87
7 [59] Hongyi Zhang, Moustapha Cissé, Yann N. Dauphin, and David Lopez-Paz. 7 59]Hongyi Zhang、Moustapha Cissé、Yann N. Dauphin、David Lopez-Paz。 0.80
mixup: Beyond empirical risk mixup: 経験的リスクを超えて 0.63
minimization. In ICLR, 2018. 最小化。 2018年、ICLR。 0.67
7 [60] Ilya Loshchilov and Frank Hutter. 7 Ilya Loshchilov氏とFrank Hutter氏。 0.71
Decoupled weight decay regularization. decoupled weight decay regularization の略。 0.68
In ICLR, 2019. 2019年、ICLR。 0.66
7, 9 [61] Ilya Loshchilov and Frank Hutter. 7, 9 Ilya Loshchilov氏とFrank Hutter氏。 0.71
SGDR: Stochastic gradient descent with warm restarts. SGDR: 温かい再起動を伴う確率勾配降下。 0.67
In ICLR, 2017. 2017年、ICLR。 0.66
7 [62] Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, and Piotr Dollár. 7 Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, Piotr Dollár。 0.71
Designing network design spaces. ネットワークの設計 デザインスペース。 0.78
In IEEE CVPR, pages 10428–10436, 2020. IEEE CVPRのページ10428–10436, 2020。 0.84
8 [63] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 8 [63]通義林、プリヤ・ゴヤル、ロス・ギルシック、カイミング・ヘ、ピオトル・ドラール。 0.66
Focal loss for dense object 高密度物体の焦点損失 0.79
detection. In IEEE ICCV, pages 2980–2988, 2017. 検出 IEEE ICCV、2980-2988、2017年。 0.61
9, 10 [64] Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jiarui Xu, et al MMDetection: Open MMLab detection toolbox and benchmark. 9, 10 [64] Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jiarui Xu, et al MMDetection: Open MMLab Detection Toolbox and benchmark。 0.84
arXiv preprint arXiv:1906.07155, 2019. arXiv preprint arXiv:1906.07155, 2019 0.81
9 13 9 13 0.85
                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。