論文の概要、ライセンス

# (参考訳) 局所視覚変換器のデミスティフィケーション:疎結合性、ウェイトシェアリング、動的ウェイト [全文訳有]

Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight ( http://arxiv.org/abs/2106.04263v1 )

ライセンス: CC BY 4.0
Qi Han, Zejia Fan, Qi Dai, Lei Sun, Ming-Ming Cheng, Jiaying Liu, Jingdong Wang(参考訳) Vision Transformer (ViT)は、視覚認識における最先端のパフォーマンスを達成し、その変種であるLocal Vision Transformerはさらなる改善を行う。 ローカルビジョントランスフォーマーの主要なコンポーネントであるローカルアテンションは、小さなローカルウィンドウ上で別々に注意を向ける。 我々は局所的な注意をチャネル毎の局所的接続層として再現し,2つのネットワーク正規化手法,疎結合と重み共有,および重み計算から解析する。 スパース接続:チャネル間の接続がなく、各位置は小さなローカルウィンドウ内の位置に接続されている。 重みの共有: 1つの位置の接続重みは、チャネル間または各チャネルグループ内で共有される。 動的重み: 接続重みは各画像インスタンスに応じて動的に予測される。 局所的な注意は深度的な畳み込みと疎結合性における動的バージョンに似ていると指摘する。 重みの共有 - 深さ方向の畳み込みは、空間的な位置をまたいで接続重み(カーネル重み)を共有する。 画像ネット分類,cocoオブジェクト検出,adeセマンティクスセグメンテーションにおいて,奥行き方向畳み込みに基づくモデルと計算複雑性の低い動的変種が,局所視覚トランスフォーマの例であるswintransformerと同等か、あるいは若干優れていることを実験的に観察した。 これらの観測は、局所視覚トランスフォーマーが2つの正規化形式と動的重みを利用してネットワーク容量を増加させることを示唆している。

Vision Transformer (ViT) attains state-of-the-art performance in visual recognition, and the variant, Local Vision Transformer, makes further improvements. The major component in Local Vision Transformer, local attention, performs the attention separately over small local windows. We rephrase local attention as a channel-wise locally-connected layer and analyze it from two network regularization manners, sparse connectivity and weight sharing, as well as weight computation. Sparse connectivity: there is no connection across channels, and each position is connected to the positions within a small local window. Weight sharing: the connection weights for one position are shared across channels or within each group of channels. Dynamic weight: the connection weights are dynamically predicted according to each image instance. We point out that local attention resembles depth-wise convolution and its dynamic version in sparse connectivity. The main difference lies in weight sharing - depth-wise convolution shares connection weights (kernel weights) across spatial positions. We empirically observe that the models based on depth-wise convolution and the dynamic variant with lower computation complexity perform on-par with or sometimes slightly better than Swin Transformer, an instance of Local Vision Transformer, for ImageNet classification, COCO object detection and ADE semantic segmentation. These observations suggest that Local Vision Transformer takes advantage of two regularization forms and dynamic weight to increase the network capacity.
公開日: Tue, 8 Jun 2021 11:47:44 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Demystifying Local Vision Transformer: Sparse demystifying local vision transformer: sparse 0.76
Connectivity, Weight Sharing, and Dynamic Weight 接続性, 重み共有, 動的重み付け 0.69
1TKLNDST, Nankai University 南海大学 1TKLNDST 0.64
Ming-Ming Cheng1 3Microsoft Research Asia 明明Cheng1 3Microsoft Research Asia 0.77
Qi Han1∗ Zejia Fan2∗ Qi Dai3 Lei Sun3 Qi Han1∗ Zejia Fan2∗ Qi Dai3 Lei Sun3 0.71
Jiaying Liu2 2Peking University Jiaying Liu2 2Peking University 0.84
Jingdong Wang3† 1 2 0 2 広東王3世 1 2 0 2 0.63
n u J 8 ] n u J 8 ] 0.85
V C . s c [ 略称はC。 sc [ 0.50
1 v 3 6 2 4 0 1 v 3 6 2 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Vision Transformer (ViT) attains state-of-the-art performance in visual recognition, and the variant, Local Vision Transformer, makes further improvements. 概要 Vision Transformer (ViT)は、視覚認識における最先端のパフォーマンスを達成し、その変種であるLocal Vision Transformerはさらなる改善を行う。 0.61
The major component in Local Vision Transformer, local attention, performs the attention separately over small local windows. ローカルビジョントランスフォーマーの主要なコンポーネントであるローカルアテンションは、小さなローカルウィンドウ上で別々に注意を向ける。 0.80
We rephrase local attention as a channel-wise locally-connected layer and analyze it from two network regularization manners, sparse connectivity and weight sharing, as well as weight computation. 我々は局所的な注意をチャネル毎の局所的接続層として再現し,2つのネットワーク正規化手法,疎結合と重み共有,および重み計算から解析する。 0.74
Sparse connectivity: there is no connection across channels, and each position is connected to the positions within a small local window. スパース接続:チャネル間の接続がなく、各位置は小さなローカルウィンドウ内の位置に接続されている。 0.81
Weight sharing: the connection weights for one position are shared across channels or within each group of channels. 重みの共有: 1つの位置の接続重みは、チャネル間または各チャネルグループ内で共有される。 0.74
Dynamic weight: the connection weights are dynamically predicted according to each image instance. 動的重み: 接続重みは各画像インスタンスに応じて動的に予測される。 0.85
We point out that local attention resembles depth-wise convolution and its dynamic version in sparse connectivity. 局所的な注意は深度的な畳み込みと疎結合性における動的バージョンに似ていると指摘する。 0.57
The main difference lies in weight sharingdepth-wise convolution shares connection weights (kernel weights) across spatial positions. 主な違いは、空間的位置をまたいだ結合重み(カーネル重み)を共有する深度的な畳み込みである。 0.57
We empirically observe that the models based on depth-wise convolution and the dynamic variant with lower computation complexity perform on-par with or sometimes slightly better than Swin Transformer, an instance of Local Vision Transformer, for ImageNet classification, COCO object detection and ADE semantic segmentation. 画像ネット分類,cocoオブジェクト検出,adeセマンティクスセグメンテーションにおいて,奥行き方向畳み込みに基づくモデルと計算複雑性の低い動的変種が,局所視覚トランスフォーマの例であるswintransformerと同等か、あるいは若干優れていることを実験的に観察した。 0.78
These observations suggest that Local Vision Transformer takes advantage of two regularization forms and dynamic weight to increase the network capacity. これらの観測は、局所視覚トランスフォーマーが2つの正規化形式と動的重みを利用してネットワーク容量を増加させることを示唆している。
訳抜け防止モード: これらの観察は、 Local Vision Transformerは2つの正規化形式と動的重み付けを利用してネットワーク容量を増大させる。
0.71
Introduction 1 Vision Transformer [8, 12, 14, 17, 18, 31, 51, 55, 57, 60, 63] has shown promising performance in ImageNet classification. はじめに 1 Vision Transformer [8, 12, 14 17, 18, 31, 51, 55, 57, 60, 63]は,ImageNet分類において有望な性能を示した。 0.71
The improved variants, Local Vision Transformer [7, 35, 52], adopt the local attention mechanism, which partitions the image space into a set of small windows, and conducts the attention over the windows simultaneously. 改良版であるLocal Vision Transformer [7, 35, 52]は、画像空間を小さなウィンドウに分割するローカルアテンション機構を採用し、同時にウィンドウ上のアテンションを実行する。 0.67
Local attention leads to great improvement in memory and computation efficiency and makes the extension to downstream tasks easier and more efficient, such as object detection and semantic segmentation. ローカルな注意はメモリと計算の効率を大幅に向上させ、オブジェクト検出やセマンティクスセグメンテーションといった下流タスクへの拡張をより簡単かつ効率的にします。 0.83
We exploit the conventional network regularization schemes [16], sparse connectivity that controls the model complexity, and weight sharing that relaxes the requirement of increasing the training data scale, as well as dynamic weight prediction that increases the model capability, to study the local attention mechanism. 我々は,従来のネットワーク正規化方式 [16] と,モデル複雑性を制御する疎結合性,トレーニングデータスケールを増大させる要求を緩和する重み共有,およびモデル能力を高める動的重み予測を利用して,局所的な注意機構を研究する。 0.90
We rephrase local attention as a channel-wise spatially-locally connected layer with dynamic connection weights. 局所的な注意を動的接続重みを持つチャネルワイド空間局所連結層として表現する。 0.66
The main properties are summarized as follows. 主な性質は以下の通りである。 0.79
(i) Sparse connectivity: there is no connection across channels, and each output position is only connected to the input positions within a local window. (i)スパース接続:チャンネル間の接続がなく、各出力位置はローカルウィンドウ内の入力位置にのみ接続される。 0.76
(ii) Weight sharing: the connection weights are shared (ii)重みの共有:接続の重みの共有 0.75
∗Equal contribution. Work done as interns at Microsoft Research, Beijing, P.R. 等しく貢献する。 Microsoft Research, Beijing, P.R.でのインターンとしての仕事。 0.62
China. †jingdw@microsoft.com . 中国。 jingdw@microsoft.com 。 0.72
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
across channels or within each group of channels. チャネルをまたいだり チャンネルのそれぞれのグループの中で 0.73
(iii) Dynamic weight: the connection weights are dynamically predicted according to each image instance. (iii)動的重み:接続重みは各画像のインスタンスに応じて動的に予測される。 0.87
We compare local attention to depth-wise convolution [6, 23] that is also a channel-wise spatiallylocally connected layer. 局所的注意を,チャネル的空間的局所的結合層である深さ的畳み込み [6,23] と比較する。 0.69
They are similar in sparse connectivity. 疎結合性も似ている。 0.65
The major difference lies in the weight sharing pattern: depth-wise convolution shares the weights across spatial positions other than across channels. 大きな違いは、ウェイトシェアリングパターンにある:ディープワイド・コンボリューションは、チャネル以外の空間的位置でウェイトを共有する。 0.59
Other than learning the weights as static model parameters, depth-wise convolution also benefits from dynamic connection weights (convolutional kernel weights) [20]. 静的モデルパラメータとして重みを学習する以外に、深度的な畳み込みは動的接続重み(畳み込みカーネル重み) [20] の利点もある。 0.74
We take the recently-developed Local Vision Transformer, Swin Transformer [35], as an example, and study the empirical performance of local attention and (dynamic) depth-wise convolution in the training setting same as Swin Transformer. 本稿では,最近開発されたLocal Vision Transformer, Swin Transformer [35]を例として, 局所的な注意と(動的)深度ワイド・コンボリューションを, Swin Transformerと同じトレーニング環境における経験的性能について考察する。 0.74
We replace the local attention layer with the (dynamic) depth-wise convolution layer, keeping the overall structure unchanged. 局所的注意層を(動的)深さ方向の畳み込み層に置き換え、全体構造を不変に保つ。 0.75
The results show that the (dynamic) depth-wise convolution-based approaches achieve comparable or slightly higher performance for ImageNet classification and two downstream tasks, COCO object detection and ADE semantic segmentation, and (dynamic) depth-wise convolution takes lower computation complexity. その結果,イメージネット分類と2つの下流タスク,COCOオブジェクト検出とADEセマンティックセマンティックセグメンテーション,および(動的)深度ワイドコンボリューションにおいて,(動的)深度ワイドコンボリューションに基づくアプローチが同等あるいはわずかに高い性能を達成することがわかった。 0.71
We summarize the main findings in the following. 主な知見を以下にまとめる。 0.39
• Local attention adopted by local Vision Transformer takes advantage of existing regularization schemes, sparse connectivity and weight sharing, as well as dynamic weight prediction, for increasing the capability without requiring a corresponding increase in model complexity and training data. •ローカルビジョントランスフォーマーが採用する局所的注意力は、既存の正規化スキーム、疎接続、重み共有、動的重み付け予測を活用し、対応するモデルの複雑さとトレーニングデータの増加を必要とせずに能力を高める。 0.83
• Local attention and (dynamic) depth-wise convolution are similar in sparse connectivity and differ in weight sharing and dynamic weight prediction forms. • 局所的な注意と(動的)深度的な畳み込みは、疎結合において類似しており、重量共有や動的重量予測形式が異なる。
訳抜け防止モード: •局所的注意と(動的)深さ - 賢明な畳み込みはスパース接続で似ている 重量共有や 動的重量予測の形式も異なります
0.82
The empirical results on visual recognition imply that the regularization forms and the dynamic weight prediction scheme exploited by local attention and (dynamic) depth-wise convolution perform similarly. 視覚認知実験の結果,局所的注意と(動的)深さ方向の畳み込みによって,正則化形式と動的重み予測スキームが同じように機能することが示唆された。 0.69
• In addition, we present a relation graph to connect convolution and attention, as well as the concurrently-develop ed MLP-based methods, e g , ResMLP [50] and MLP-Mixer [49]. さらに、コンボリューションとアテンションを結合する関係グラフと、同時に開発されたMLPベースのメソッド(例えば、ResMLP [50]、MLP-Mixer [49])を示す。 0.66
The relation graph shows that these methods essentially take advantage of different sparse connectivity and weight sharing patterns for model regularization optionally with dynamic weight prediction. 関係グラフは、これらの手法が本質的に異なる疎結合と重み共有パターンを利用して、動的重み予測と任意にモデル正規化を行うことを示す。 0.66
2 Understanding Local Attention 2.1 Sparse Connectivity, Weight Sharing, and Dynamic Weight We give a brief introduction of two regularization forms, sparse connectivity and weight sharing, and dynamic weight, and their benefits. 2. 局所注意を理解する 2.1 スパース接続性、重み共有、動的重み付け 2 つの正規化形式、スパース接続性、重み共有、動的重み付けとその利点について簡単に紹介する。 0.77
We will use the three forms to analyze local attention and connect it to depth-wise convolution. 3つの形式を用いて局所的注意を解析し,それを奥行き方向の畳み込みに結びつける。 0.56
Sparse connectivity means that there are no connections between some output neurons (variables) and some input neurons in a layer. スパース接続は、いくつかの出力ニューロン(変数)と層内のいくつかの入力ニューロンの間には接続がないことを意味する。
訳抜け防止モード: 接続性が低いということは 出力ニューロン(変数)と、層内の入力ニューロンの間には、接続がない。
0.71
It reduces the model complexity without decreasing the number of neurons, e g , the size of the (hidden) representations. ニューロンの数、例えば(隠れた)表現のサイズを減少させることなく、モデルの複雑さを減少させる。 0.79
Weight sharing indicates that some connection weights are equal. 重み共有は、いくつかの接続重みが等しいことを示す。 0.50
It lowers the number of model parameters and increases the network size without requiring a corresponding increase in training data [16]. トレーニングデータの増加を必要とせずに、モデルパラメータの数を削減し、ネットワークサイズを増加させる [16]。 0.84
Dynamic weight refers to learning specialized connection weights for each instance. 動的ウェイトとは、各インスタンスの特別な接続ウェイトを学習することを指す。 0.52
It generally aims to increase the model capacity. 一般的には、モデルの容量を増やすことを目的としている。 0.47
If regarding the learned connection weights as hidden variables, dynamic weight can be viewed as introducing second-order operations that increase the capability of the network. 学習した接続重みを隠れ変数とすると、動的重みはネットワークの能力を高める2階演算を導入すると見なすことができる。 0.80
The connection to Hopfield networks is discussed in [42]. ホップフィールドネットワークへの接続については[42]で論じる。 0.73
2.2 Local Attention Vision Transformer [14] forms a network by repeating the attention layer and the subsequent pointwise MLP (point-wise convolution). 2.2ローカルアテンションビジョントランス[14]はアテンション層とその後のポイントワイズmlpを繰り返してネットワークを形成する(ポイントワイズ畳み込み)。
訳抜け防止モード: 2.2 ローカルアテンションビジョントランス[14]はネットワークを形成する 注意層とその後のポイントワイド MLP (point - wise convolution ) を繰り返します。
0.81
The local Vision Transformer, such as Swin Transformer [35] and HaloNet [52], adopts the local attention layer, which partitions the space into a set of small windows and performs the attention operation within each window simultaneously, to improve the memory and computation efficiency. Swin Transformer[35]やHaloNet[52]のようなローカルビジョントランスフォーマーは、空間を小さなウィンドウの集合に分割し、各ウィンドウ内の注意操作を同時に行うローカルアテンション層を採用し、メモリと計算効率を向上させる。
訳抜け防止モード: スイニング変圧器[35]のような局所視覚変換器 そしてHaloNet [52 ]は、ローカルアテンション層を採用しています。 スペースを小さなウィンドウの集合に分割し、各ウィンドウ内の注意操作を同時に実行する。 メモリと計算効率を向上させるためです
0.81
The local attention mechanism forms the keys and values in a window that the query lies in. ローカルアテンション機構は、クエリが格納されているウィンドウにキーと値を形成する。 0.75
The attention output for the query xi ∈ RD at the position i is the aggregation of the corresponding i の位置におけるクエリ xi ∈ RD に対する注意出力は、対応する集合である 0.84
2 2 0.85
英語(論文から抽出)日本語訳スコア
e l n n a h E L n n あ H 0.73
C e l n n a C E L n n あ 0.74
h C e l n n H C E L n n 0.80
a h C e l n あ H C E L n 0.73
n a h C e l n あ H C E L 0.73
n n a h C l a i t a p S n n あ H C l a i t a p S 0.78
l a i t a p S l a i t a p S 0.85
l a i t a p S l a i t a p S 0.85
l a i t a p S l a i t a p S 0.85
l a i t a p S l a i t a p S 0.85
(a) (b) (c) (a) (b) (c) 0.85
(d) (e) Figure 1: Illustration of connectivity for (a) convolution, (b) global attention and spatial mixing MLP, (c) local attention and depth-wise convolution, (d) point-wise MLP or 1 × 1 convolution, and (e) MLP (fully-connected layer). (d) (e) 図1:(a)畳み込み、(b)グローバルアテンションと空間ミキシング MLP、(c)ローカルアテンションと深度ワイドコンボリューション、(d)ポイントワイド MLPまたは1×1コンボリューション、(e)MLP(完全連結層)の接続性の図示。
訳抜け防止モード: (d) (e) 図1:(a)畳み込みのための接続性の図示 b) グローバルアテンションと空間ミキシング MLP, (c) 局所アテンションと深度 - 賢明な畳み込み- (d) 点 - 賢明な MLP または 1 × 1 の畳み込み。 および (e ) MLP (完全接続層)。
0.83
In the spatial dimension, we use 1D to illustrate the local-connectivity pattern for clarity. 空間次元では,局所接続パターンを明快に表現するために1Dを用いる。 0.75
values in the local window, {xi1, xi2, . ローカルウィンドウの値 {xi1, xi2, . 0.75
. . , xiNk}, weighted by the corresponding attention weights {ai1, ai2, . . . xiNk, {\displaystyle xiNk} は対応する注目重量 {ai1, ai2, . 0.82
. . , aiNk}3: . . , aiNk}3: 0.85
(1) where Nk = Kw × Kh is the size of the local window. 1) Nk = Kw × Kh は局所窓の大きさである。 0.67
The attention weight aij is computed as the softmax normalization of the dot-product between the query xi and the key xij: 注目重量aijは、クエリxiとキーxijの間のドット積のソフトマックス正規化として計算される。 0.69
aijxij, yi = Aijxij, yi = 0.82
j=1 aij = 1√ D j=1 aij = 1~D 0.65
x(cid:62) i xij x(cid:62) i xij 0.92
e Zi where Zi = E ジイ ここでは Zi = 0.65
(cid:88)Nk (cid:88)nk 0.78
j=1 1√ D e x(cid:62) i xij . j=1 1~D E x(cid:62) i xij 。 0.67
(2) (cid:88)Nk (2) (cid:88)nk 0.81
(cid:88)Nk (cid:88)nk 0.78
j=1 The multi-head version partitions the D-dimensional query, key and value vectors into M subvectors M dimensions), and conducts the attention process M times, each over the corresponding (each with D subvector. j=1 マルチヘッドバージョンは、D次元クエリ、キーおよび値ベクトルをMサブベクタM次元に分割し、対応する(それぞれDサブベクタを持つ)各アテンションプロセスM倍の処理を行う。 0.72
The whole output is the concatenation of M outputs, yi = [y(cid:62) iM ](cid:62). 全出力は M 出力の連結であり、yi = [y(cid:62) iM ](cid:62) である。 0.88
The mth output yim is calculated by m番目の出力yimは 0.58
i2 . . . y(cid:62) i2。 . . y(cid:62) 0.82
i1 y(cid:62) i1 y(cid:62) 0.78
yim = aijmxijm, yim = 通称、aijmxijm。 0.63
(3) where xijm is the mth value subvector and aijm is the attention weight computed from the mth head in the same way as Equation 2. (3) ここで xijm は mth 値部分ベクトルであり、aijm は方程式 2 と同じ方法で mth ヘッドから計算された注目重量である。 0.83
(cid:88)Nk (cid:88)nk 0.78
2.3 Properties We show that local attention is a channel-wise spatially-locally connected layer with dynamic weight computation, and discuss its properties. 2.3 特性 局所的注意は, 動的重み計算を伴うチャネルワイド空間局所連結層であり, その特性について議論する。 0.75
Figure 1 (c) illustrates the connectivity pattern. 図1(c)は接続パターンを示しています。 0.74
The aggregation processes (Equation 1 and Equation 3) for local attention can be rewritten equivalently in a form of element-wise multiplication: 局所注意のための集約過程(等式1および等式3)は、要素単位での乗算の形で等価に書き直すことができる。 0.66
wij (cid:12) xij, wij (cid:12) xij, 0.92
j=1 yi = (4) where (cid:12) is the element-wise multiplication operator, and wij ∈ RD is the weight vector formed from the attention weight aij or {aij1, aij2, . j=1 yi = (4) は (cid:12) が要素ワイド乗算作用素であり、wij ∈ RD は注目重み aij または {aij1, aij2, から形成される重みベクトルである。 0.74
. . , aijM}. . . 、aijM}。 0.76
Sparse connectivity. The local attention layer is spatially sparse: each position is connected to the Nk positions in a small local window. 疎結合。 局所的な注意層は空間的にスパースであり、各位置は小さなローカルウィンドウ内のNk位置に接続されている。
訳抜け防止モード: 疎結合。 局所的な注意層は空間的に疎い それぞれの位置は、小さなローカルウィンドウ内のNk位置に接続される。
0.69
There are also no connections across channels. チャンネル間の接続も存在しない。 0.74
The element-wise multiplication in Equation 4 indicates that given the attention weights, each output element, e g , yid (the ith position for the dth channel), is only dependent on the corresponding input elements from the same channel in the window, {xi1d, xi2d, . 方程式4における要素ワイド乗算は、注目重みが与えられたとき、各出力要素 eg, yid(dthチャネルのith位置)が、ウィンドウ内の同じチャネルの対応する入力要素 {xi1d, xi2d, にのみ依存していることを示す。 0.86
. . , xiNkd}, and not related to other channels. . . xiNkdは、他のチャネルとは無関係である。 0.80
Weight sharing. The weights are shared with respect to channels. 重量共有。 重みはチャネルに関して共有される。 0.65
In the single-head attention case, all the elements {wij1, wij2, . シングルヘッドアテンションの場合、すべての要素 {wij1, wij2, . 0.63
. . , wijD} in the weight vector wij are the same: wijd = aij, 1 (cid:54) d (cid:54) D. In the multi-head attention case, the weight vector wij is group-wise same: wij is partitioned to M subvectors each corresponding to one attention head, {wij1, wij2, . . . wijd = aij, 1 (cid:54) d (cid:54) d マルチヘッド注意の場合、重みベクトル wij はグループごとに同じである: wij は 1 つの注意ヘッド、 {wij1, wij2, ... に対応する m サブベクターに分割される。 0.82
. . , wijM}, and the elements in each subvector wijm are the same and are equal to the mth attention weight, aijm. . . , wijM, and the element in each subvector wijm is same, and is equal to the mth attention weight, aijm。 0.81
3For presentation convenience, we ignore the linear projections conducted to the queries, the keys and the values. 3 プレゼンテーションの便宜上,クエリやキー,値に対する線形射影は無視する。 0.59
In vision applications, the value and the corresponding key are from the same feature possibly with different linear projections, and we denote them using the same symbol xij. 視覚応用では、値と対応するキーは、おそらく異なる線形射影を持つ同じ特徴のものであり、同じ記号 xij を用いてそれらを表す。 0.77
3 3 0.85
英語(論文から抽出)日本語訳スコア
(cid:88)Nk (cid:88)nk 0.78
woffset(i,j) (cid:12) xij. woffset(i,j) (cid:12) xij。 0.93
Dynamic weight. The weights, {wi1, wi2, . 動的重量。 重量(wi1, wi2, )。 0.75
. . , wiNk}, are dynamically predicted from the query xi and the keys {xi1, xi2, . . . , wink} はクエリ xi とキー {xi1, xi2, .} から動的に予測される。 0.82
. . , xiNk} in the local window as shown in Equation 2. . . Equation 2に示すように、ローカルウィンドウ内のxiNk} である。 0.83
We rewrite it as: 私たちは次のように書き直します。 0.45
{wi1, wi2, . wi1, wi2, です。 0.64
. . , wiNk} = f (xi; xi1, xi2, . . . , wiNk} = f (xi; xi1, xi2, )。 0.86
. . , xiNk ). . . 、xiNk。 0.72
(5) Each weight may obtain the information across all the channels, and serves as a bridge to deliver the across-channel information to each output channel. (5)各重みは全チャネルにまたがる情報を取得し、各出力チャネルに全チャネル情報を配信するブリッジとして機能する。 0.82
Set representation. The keys/values for one query are collected as a set with the spatial-order information lost. 表現を設定する。 1つのクエリのキー/値は、空間次情報が失われる集合として収集される。 0.59
This leads to that the spatial correspondence between the keys/values across windows is not exploited. これにより、ウィンドウ間のキー/値間の空間的対応は利用されない。 0.70
The order information loss is partially remedied by encoding the positions as embeddings [14, 51], or learning a so-called relative position embedding (e g , [35]) in which the spatial-order information is preserved as the keys/values in a local window are collected as a vector. 位置を埋め込み[14,51]として符号化するか、あるいは局所ウィンドウ内のキー/値として空間順序情報が保存されるいわゆる相対位置埋め込み(eg,[35])をベクトルとして学習することにより、順序情報損失を部分的に修復する。 0.88
2.4 Connection to Depth-Wise Convolution Depth-wise convolution is a type of convolution that applies a single convolutional filter for each channel: ¯Xd = Cd ⊗ Xd, where Xd and ¯Xd are the dth input and output channel maps, Cd ∈ RNk is the corresponding kernel weight, and ⊗ is the convolution operation. 2.4 Connection to Depth-Wise Convolution Depth-wise Convolutionは、各チャネルに対して単一の畳み込みフィルタを適用する畳み込みの一種である。
訳抜け防止モード: 2.4 Connection to Depth - Wise Convolution Depth - 賢明な畳み込みは、各チャネルに単一の畳み込みフィルタを適用する畳み込みの一種である。 Xd と Xd は d 番目の入力と出力のチャネルマップです。 Cd ∈ RNk は対応するカーネルウェイトである。 は畳み込み操作です。
0.67
It can be equivalently written in the form of element-wise multiplication for each position: 各位置に対する要素ワイズ乗算の形で等価に書くことができる。 0.76
j=1 yi = (6) Here, offset(i, j) is the relative offset, offset(i, j) = 2D(j) − 2D(i), from the 2D coordinate of the position j to the 2D coordinate of the central position i. j=1 yi = (6) ここで、オフセット(i, j) は相対オフセットであり、オフセット(i, j) = 2D(j) − 2D(i) は位置 j の 2D 座標から中心位置 i の 2D 座標までである。 0.74
The weights {woffset(i,j) ∈ RD; j = 1, 2, . 重み {woffset(i,j) ∈ rd; j = 1, 2, ... である。 0.80
. . , Nk} are reshaped from C1, C2, . . . , Nk} はC1, C2, から変形する。 0.83
. . , CD. . . CD、CD。 0.84
The Nk weight vectors are model parameters and shared for all the positions. Nk重みベクトルはモデルパラメータであり、すべての位置で共有される。 0.80
We describe the similarities and differences between (dynamic) depth-wise convolution and local attention. 本稿では,(動的)深度的畳み込みと局所的注意の類似点と相違点について述べる。 0.59
Figure 1 (c) illustrates the connectivity patterns. 図1(c)は接続パターンを示しています。 0.74
Similarities. Depth-wise convolution resembles local attention in sparse connectivity. 類似点。 深さ方向の畳み込みはスパース接続の局所的注意に似ている。 0.55
There are no connections across channels. チャンネル間の接続はありません。 0.76
Each position is only connected to the positions in a small local window for each channel. 各位置は、各チャンネルの小さなローカルウィンドウ内の位置にのみ接続される。 0.82
Differences. One main difference lies in weight sharing: depth-wise convolution shares the connection weights across spatial positions, while local attention shares the weights across channels or within each group of channels. 違い。 深さ方向の畳み込みは空間的な位置の接続重みを共有し、局所的な注意はチャネル全体または各チャネルグループ内で重みを共有します。 0.73
The second difference is that the connection weights for depth-wise convolution are static and learned as model parameters, while the connection weights for local attention are dynamic and predicted from each instance. 第2の違いは、深度的な畳み込みのための接続重みが静的であり、モデルパラメータとして学習され、一方、局所的な注意のための接続重みは各インスタンスから動的で予測されることである。 0.62
Depth-wise convolution can also benefit from dynamic weight prediction, e g , using the weight prediction scheme in SENet [26] to predict the convolutional kernel weights for each instance. また,SENet[26]の重み予測スキームを用いて各インスタンスの畳み込みカーネル重み付けを予測することで,動的重み予測の恩恵を受けることができる。 0.71
One more difference lies in window representation. もう一つの違いはウィンドウ表現にある。 0.69
Local attention represents the positions in a window by utilizing a set form with spatial-order information lost. ローカルアテンションは、空間順序情報が失われたセットフォームを利用することで、ウィンドウ内の位置を表す。
訳抜け防止モード: ローカルアテンションはウィンドウ内の位置を表す 空間-順序情報を失った集合形式を利用する。
0.75
It explores the spatial-order information implicitly using the positional embedding or explicitly using the learned so-called relative positional embedding. 位置埋め込みを用いて暗黙的に、あるいは学習したいわゆる相対的位置埋め込みを用いて、空間秩序情報を探索する。 0.61
Depth-wise convolution exploits a vector form: aggregate the representations within a local window with the weights indexed by the relative position (see Equation 6); keep spatial correspondence between the positions for different windows, thus exploring the spatial-order information explicitly. 深さ方向の畳み込みは、局所ウィンドウ内の表現を相対位置でインデックス付けされた重みで集約する(式6を参照)、異なるウィンドウの位置間の空間対応を保ち、空間次情報を明確に探索するベクトル形式を利用する。 0.78
2.5 Relation Graph We present the connectivity patterns in Figure 1, and the relation graph in Figure 2 with the summarization in Table 1 to describe the relation between convolution, depth-wise separable convolution (depth-wise convolution + 1 × 1 convolution) [23, 6], Vision Transformer [14, 51], Local Vision Transformer [35, 52], as well as multilayer perceptron (MLP), Separable MLP (Sep. MLP, e g , MLPMixer [49], ResMLP [50] and [38]) in terms of sparse connectivity, weight sharing, and dynamic weight. 2.5 Relation Graph We present the connectivity patterns in Figure 1, and the relation graph in Figure 2 with the summarization in Table 1 to describe the relation between convolution, depth-wise separable convolution (depth-wise convolution + 1 × 1 convolution) [23, 6], Vision Transformer [14, 51], Local Vision Transformer [35, 52], as well as multilayer perceptron (MLP), Separable MLP (Sep. MLP, e g , MLPMixer [49], ResMLP [50] and [38]) in terms of sparse connectivity, weight sharing, and dynamic weight. 0.86
We discuss their relation in the matrix forms in the appendix. 付録の行列形式におけるそれらの関係について論じる。 0.60
Multilayer perceptron (MLP) is a fully-connected layer: each neuron (an element at each position and each channel) in one layer is connected with all the neurons in the previous layer4. 多層パーセプトロン(mlp)は完全連結層であり、各ニューロン(各位置および各チャネルの要素)は前層4の全てのニューロンと接続される。
訳抜け防止モード: 多層パーセプトロン(MLP)は神経細胞の完全結合層である (各位置の要素と各チャンネル) 1つの層は前の層4の全てのニューロンと繋がっています。
0.85
Convolution 4We use the widely-used definition for the term MLP: fully-connected layer. 革命 4) MLP: fully-connect layer という用語で広く使われている定義を用いる。 0.51
There might be other definitions. 他の定義もあるかもしれない。 0.65
4 4 0.85
英語(論文から抽出)日本語訳スコア
Figure 2: Relation graph for convolution (Conv. 図2: 畳み込み(畳み込み)のための関係グラフ。 0.69
), depth-wise separable convolution (DW-S Conv. ),深度的に分離可能な畳み込み(DW-S Conv。 0.60
), Vision Transformer (ViT) building block, local ViT building block, as well as Sep. MLP (e g , MLP-Mixer and ResMLP) in terms of sparse connectivity and dynamic weight. ビュートランスフォーマー(ViT)ビルディングブロック、ローカルViTビルディングブロック、およびSep.MLP(例えば、MLP-MixerとResMLP)は、疎結合性と動的ウェイトである。
訳抜け防止モード: ) Vision Transformer (ViT ) building block, local ViT building block Sep. MLP (例: MLP - Mixer と ResMLP ) と同様に、疎結合性と動的ウェイトの観点からも。
0.82
We also include the low-rank regularization studied for convolutions and ViT and potentially for MLP, and the explanation for pyramid as low rank and other details (not our focus) are given in the appendix. また, コンボリューションやViT, MLPについて検討した低位正規化や, ピラミッドを低位とする説明, その他の詳細(我々の焦点ではない)が付録に記載されている。 0.73
The weight sharing patterns are discussed in Section 2.5. 重み共有パターンについては,第2.5節で論じる。 0.54
Here, ViT and Local ViT refer to the corresponding building blocks, and PVT means the pyramid way for spatial low-rank. ここでは、ViTとLocal ViTは対応するビルディングブロックを参照し、PVTは空間的低ランクのピラミッド方法を意味する。 0.71
Dim. = dimension including spatial and channel, Sep. = separable, LR = low rank, MS Conv. うーん。 =空間とチャネルを含む次元 sep. = separable, lr = low rank, ms conv。 0.54
= multi-scale convolution, PVT = pyramid vision transformer. PVT = ピラミッド・ビジョン・トランスフォーマー。 0.52
and separable MLP are sparse versions of MLP. 分離可能な MLP は MLP のスパースバージョンである。 0.74
The connection weights can be formulated as a tensor (e g , 3D tensor, two dimension for space and one dimension for channel) and the low-rank approximation of the tensor can be used to regularize the MLP (LR MLP, details in the appendix). 接続重みはテンソル(例えば3次元テンソル、空間の2次元、チャネルの1次元)として定式化することができ、テンソルの低ランク近似は MLP (LR MLP, details in the appendix) の正則化に利用できる。 0.67
Convolution is a locally-connected layer, formed by connecting each neuron to the neurons in a small local window with the weights shared across the spatial positions. 畳み込み(convolution)は、局所的な結合層であり、各ニューロンと小さな局所的なウィンドウ内のニューロンを、空間的位置をまたいで共有する重みによって形成される。
訳抜け防止モード: 畳み込みは局所的に連結された層であり、形成される それぞれのニューロンを小さな局所的な窓の中のニューロンに接続する。
0.63
Depth-wise separable convolution is formed by decomposing the convolution into two components: one is point-wise 1 × 1 convolution, mixing the information across channels, and the other is depth-wise convolution, mixing the spatial information. 奥行き分離可能な畳み込みは、畳み込みを2つの構成要素に分解することで構成される: 1つはポイントワイズ 1 × 1 畳み込みであり、もう1つはチャンネル間で情報を混合し、もう1つは深さ方向の畳み込みであり、空間情報を混合する。
訳抜け防止モード: 深さ - 賢明な分離可能な畳み込みは、畳み込みを2つの成分に分解することによって形成される。 チャネルをまたいで情報を混ぜて もう1つは 深み - 賢明な畳み込み 空間情報を混ぜる
0.59
Other variants of convolution, such as bottleneck, multi-scale convolution or pyramid, can be regarded as low-rank variants (details in the appendix). ボトルネック、マルチスケールの畳み込み、ピラミッドのような他の畳み込みの変種は、低ランクの変種(付録の詳細)と見なすことができる。 0.53
Separable MLP (e g , MLP-Mixer and ResMLP) reshapes the 3D tensor into a 2D format with the spatial dimension and channel dimension. 分離可能な MLP (e , MLP-Mixer, ResMLP) は3次元テンソルを空間次元とチャネル次元の2次元形式に変換する。 0.83
Separable MLP consists of two sparse MLP along the two dimensions separately, which are formed by separating the input neurons into groups. 分離可能なMLPは2つの次元に沿って2つのスパースMLPから構成され、入力されたニューロンをグループに分離することによって形成される。
訳抜け防止モード: 分離可能なMLPは2つの次元に沿って2つのスパースMLPからなる。 入力ニューロンをグループに分けて形成します
0.78
Regarding channel sparsity, the neurons in the same channel form a group, and an MLP is performed over each group with the MLP parameters shared across groups, forming the first sparse MLP (spatial/token mixing). チャネル間隔について、同一チャネル内のニューロンはグループを形成し、グループ間で共有されるMLPパラメータで各グループ上でMLPを行い、最初のスパースMLP(空間/トーケン混合)を形成する。 0.85
A similar process is done by viewing the neurons at the same position into a group, forming the second sparse MLP (channel mixing). 同様のプロセスは、同じ位置にあるニューロンをグループに観察し、第2のスパースmlp(チャネル混合)を形成することによって行われる。 0.68
Vision Transformer is a dynamic version of separable MLP. Vision Transformer は分離可能な MLP の動的バージョンである。 0.78
The weights in the first sparse MLP (spatial/token mixing) are dynamically predicted from each instance. 第一スパースMLP(空間/トーケン混合)の重みは各インスタンスから動的に予測される。 0.76
Local Vision Transformer is a spatially-sparser version of Vision Transformer: each output neuron is connected to the input neurons in a local window. ローカルビジョン変換器(Local Vision Transformer)は、視覚変換器(Vision Transformer)の空間スパーサバージョンであり、各出力ニューロンはローカルウィンドウ内の入力ニューロンに接続されている。
訳抜け防止モード: Local Vision TransformerはVision Transformerの空間空間スペーサー版である。 各出力ニューロンは、ローカルウィンドウ内の入力ニューロンに接続されている。
0.74
PVT [55] is a pyramid (spatial sampling/ low-rank) variant of Vision Transformer. PVT[55]は、Vision Transformerのピラミッド(空間サンプリング/低ランク)である。 0.85
Depth-wise separable convolution can also be regarded as a spatially-sparser version of sparable MLP. 深部分離性畳み込みは空間分離性MLPの空間分離型と見なすこともできる。 0.60
In the first sparse MLP (spatial/token mixing), each output neuron is only dependent on the input neurons in a local window, forming depth-wise convolution. 第1のスパースMLP(spatial/token mix)では、各出力ニューロンは局所窓の入力ニューロンにのみ依存し、深さ方向の畳み込みを形成する。
訳抜け防止モード: 最初のスパースMLP(空間/トークン混合)において それぞれの出力ニューロンは ローカルウィンドウの入力ニューロンにのみ依存します 深度 - 賢明な畳み込み。
0.76
In addition, the connection weights are shared across spatial positions, instead of across channels. さらに、接続重みはチャネル間ではなく空間的位置間で共有される。 0.70
3 Experimental Study We conduct empirical comparisons between local attention and depth-wise convolutions on three visual recognition tasks (studied on Swin Transformer [35]): ImageNet classification, COCO object detection, and ADE semantic segmentation. 3 局所的な注意と3 つの視覚的認識課題(スウィントランスフォーマー [35] に基づく)における深度的畳み込みの実証的比較を行う:画像ネット分類,COCO オブジェクト検出,ADE セマンティックセマンティックセグメンテーション。 0.82
We follow the structure of Swin Transformer to build the depth-wise convolution-based networks. We follow the structure of Swin Transformer to build the depth-wise convolution-based network。 0.86
We apply the same training and evaluation settings from Swin Transformer to our models. swin transformerと同じトレーニングと評価設定をモデルに適用しています。 0.66
In addition, we study the effects of weight sharing and dynamic weight in the two methods. さらに,2つの方法における重量共有と動的重量の影響について検討した。 0.80
3.1 Architectures We use the recently-developed Swin Transformer as the example of local attention-based networks and study the performance over the tiny and base networks: Swin-T and Swin-B, provided by the 3.1 アーキテクチャ ローカルアテンションベースのネットワークの例として最近開発されたSwin Transformerを使用し、小さなネットワークとベースネットワーク(Swin-TとSwin-B)のパフォーマンスについて調査する。
訳抜け防止モード: 3.1 アーキテクチャ 最近開発されたSwin Transformerをローカルアテンションベースのネットワークの例として使用します。 小型ネットワークとベースネットワークにおける性能に関する研究 : Swin - T と Swin - B について
0.66
5 regularizationPyrami dMSConv.LocalitySep. Dim.Sep.LocalitySep. Dim.Sep.SpatialSpati alLRChannelLRViTMLPC onv.SparseConnection DynamicWeightLow-Ran kBottleneckDW-SConv. LocalViTSep.MLPLRMLP Dim.LRDynamicPVTLoca litySep.SpatialLR 5 正規化PyramidMSConv.Locali tySep.Dim.LocalitySe p.Dim.Sep.SpatialSpa tialLRChannelLRViTML PConv.SparseConnecti onDynamicWeightLow-R ankBottleneckDW-SCon v.LocalViTSep.MLPLRM LPDim.LRDynamicPVTLo calitySep.SpatialLR 0.45
英語(論文から抽出)日本語訳スコア
Table 1: The comparison of attention, local attention, convolution, depth-wise convolution (DW-Conv.) 表1:注意、局所的注意、畳み込み、深度ワイド畳み込み(DW-Conv.)の比較 0.73
and the dynamic variant (D-DW-Conv. and the dynamic variant (D-DW-Conv。 0.73
), as well as MLP and MLP variants in terms of the patterns of sparse connectivity, weight sharing, and dynamic weight. sparse 接続性,重量共有性,動的重み付けのパターンの観点から,mlp と mlp の亜種についても検討した。 0.59
†Channel Sep. MLP corresponds to token-mixer MLP. Channel Sep. MLP はトークンミキサー MLP に対応する。 0.71
‡1 × 1 Conv. 1 × 1 conv。 0.62
is also called point-wise MLP. ポイントワイド MLP とも呼ばれる。 0.77
(cid:91)The weights might be shared within each group of channels. (cid:91)各チャネル群内で重みを共有することができる。 0.75
Sparse between positions non-local 非ローカルな位置間のスパース 0.57
full Sparse between Weight sharing across Dynamic weight フル 動的重みにおける重みの共有のばらつき 0.64
channels position channel チャンネル 位置 チャンネル 0.77
                0.85
Local attention Attention DW-Conv. ローカルアテンションDW-Conv。 0.71
D-DW-Conv. Conv. D-DW-Conv Conv 0.54
MLP Channel Sep. MLP† 1 × 1 Conv.‡ authors [35]5. MLPチャンネル 1 × 1 の著者 [35]5。 0.57
We follow the tiny and base networks to build two depth-wise convolution-based networks, DW-Conv.-T and DW-Conv.-B so that the overall architectures are the same, making the comparison fair. 私たちは、DW-Conv.-TとDW-Conv.-Bという2つの奥行きの畳み込みベースのネットワークを構築するために、小さなネットワークとベースネットワークに従っています。 0.58
We also build the dynamic versions, D-DW-Conv.-T and D-DW-Conv.-B, by predicting the dynamic weights using the similar technique as SENet [26]. また,D-DW-Conv.-TとD-DW-Conv.-Bという動的バージョンを構築し,SENet [26]と同様の手法を用いて動的ウェイトを予測する。 0.64
We simply replace local attention in Swin Transformer by depth-wise convolution of the same window size, where the pre- and post- linear projections over the values are replaced by 1 × 1 convolutions. swin変圧器の局所的注意を、同じウィンドウサイズの深さ方向の畳み込みに置き換えるだけで、その値に対する事前およびポスト線形射影は 1 × 1 畳み込みに置き換えられる。 0.75
We adopt the convolutional network design pattern to append BN [29] and ReLU [39] to the convolution. 我々は、BN[29]とReLU[39]を畳み込みに付加するために畳み込みネットワーク設計パターンを採用する。 0.72
The details are available in the appendix. 詳細は付録で確認できる。 0.41
In terms of parameter and computation complexity, the depth-wise convolution-based networks are lower (Table 2) because there are linear projections for keys and values in local attention. パラメータと計算複雑性の面では、局所的な注意の鍵と値に対する線形投影が存在するため、奥行きの畳み込みに基づくネットワークは低い(表2)。 0.77
            0.85
(cid:91)  〜(cid:91) 〜 0.45
    3.2 Datasets and Implementation Details ImageNet classification.     3.2 データセットと実装の詳細 ImageNet 分類。 0.82
The ImageNet-1K recognition dataset [13] contains 1.28M training images and 50K validation images with totally 1,000 classes. imagenet-1k認識データセット[13]は、128mのトレーニング画像と、1000クラスからなる50kの検証画像を含む。 0.53
We use the exactly-same training setting as Swin Transformer [35]. 正確なトレーニング設定をSwin Transformer[35]として使用します。 0.68
The AdamW [36] optimizer for 300 epochs is adopted, with a cosine decay learning rate scheduler and 20 epochs of linear warm-up. 300エポックのAdamW[36]オプティマイザが採用され、コサイン減衰学習率スケジューラと20エポックの線形ウォームアップが採用されている。 0.52
The weight decay is 0.05, and the initial learning rate is 0.001. 重量崩壊は0.05であり、初期学習率は0.001である。 0.72
The augmentation and regularization strategies include RandAugment [11], Mixup [65], CutMix [64], stochastic depth [28], etc. 拡張戦略と正規化戦略には、RandAugment [11]、Mixup [65]、CutMix [64]、確率的深さ [28]などが含まれる。 0.65
COCO object detection. COCOオブジェクト検出。 0.75
The COCO 2017 dataset [33] contains 118K training and 5K validation images. COCO 2017データセット[33]には、118Kトレーニングと5K検証イメージが含まれている。 0.60
We follow Swin Transformer to adopt Cascade Mask R-CNN [4] for comparing backbones. バックボーンの比較にCascade Mask R-CNN[4]を採用するために、Swin Transformerに従う。 0.63
We use the training and test settings from Swin Transformer: multi-scale training - resizing the input such that the shorter side is between 480 and 800 and the longer side is at most 1333; AdamW optimizer with the initial learning rate 0.0001; weight decay - 0.05; batch size - 16; and epochs - 36. マルチスケールトレーニング - より短い側が480から800、より長い側が最大1333、adamwオプティマイザが初期学習率0.0001、重量減少 - 0.05、バッチサイズ - 16、epochs - 36。
訳抜け防止モード: swin transformerのトレーニングとテスト設定を使う : マルチスケールトレーニング - 入力を再サイズする 短辺は480から800、長辺は1333である。 ; adamwオプティマイザの初期学習率 0.0001 ; 体重減少 - 0.05 ; バッチサイズ - 16 ; そしてエポック36。
0.65
ADE semantic segmentation. ADE セマンティックセグメンテーション。 0.58
The ADE20K [73] dataset contains 25K images, 20K for training, 2K for validation, and 3K for testing, with 150 semantic categories. ADE20K [73]データセットには、25Kイメージ、トレーニング用20K、検証用2K、テスト用3K、150のセマンティックカテゴリが含まれている。 0.62
The same setting as Swin Transformer [35] is adopted. Swin Transformer[35]と同じ設定を採用する。 0.72
UPerNet [58] is used as the segmentation framework. upernet [58]はセグメンテーションフレームワークとして使用される。 0.76
Details are provided in the appendix. 詳細は付録に記載されている。 0.57
3.3 Main Results ImageNet classification. 3.3 主な結果 imagenet 分類。 0.81
The comparison for ImageNet classification is given in Table 2. ImageNet 分類の比較は Table 2 で行われている。 0.87
One can see that the local attention-based networks, Swin Transformer, and the depth-wise convolutionbased networks, perform on par (with a slight difference of 0.1) in terms of top-1 accuracy and real accuracy [3] for both tiny and base models. ローカルアテンションベースのネットワーク、スウィントランス、奥行き方向畳み込みベースのネットワークは、小さなモデルとベースモデルの両方において、トップ1の精度と実際の精度の点で(0.1の差で)parで実行されることが分かる。 0.72
In the tiny model case, the dynamic depth-wise convolution-based network performs higher. 小さなモデルの場合、動的深度ワイド畳み込みに基づくネットワークはより高い性能を発揮する。 0.73
In particular, the depth-wise convolution-based networks are more efficient in parameters and computation complexities. 特に、ディープワイド畳み込みに基づくネットワークは、パラメータや計算複雑性においてより効率的である。 0.58
In the tiny model case, the parameters and computation complexities are reduced by 14.2% and 15.5%, respectively. 小さなモデルの場合、パラメータと計算の複雑さはそれぞれ14.2%と15.5%に減少する。 0.88
Similarly, in the base model case, the two costs are reduced by 15.9% and 16.2%, respectively. 同様に、ベースモデルの場合、2つのコストはそれぞれ15.9%と16.2%削減される。 0.83
The dynamic variant takes more parameters but with almost the same complexity efficiency. 動的変種はより多くのパラメータを必要とするが、ほぼ同じ複雑さ効率を持つ。 0.65
In addition, we report the results for other models: ResNet - with normal convolutions and bottleneck forming residual units; channel and spatial separable MLP - MLP-Mixer [49] and ResMLP [50]; and また、resnet - 通常の畳み込みとボトルネック形成による残留単位、チャネルおよび空間分離可能なmlp - mlp-mixer [49] と resmlp [50] という他のモデルの結果を報告する。 0.54
5https://github.com/ microsoft/Swin-Trans former (MIT License) 5https://github.com/ microsoft/Swin-Trans former (MIT License) 0.50
6 6 0.85
英語(論文から抽出)日本語訳スコア
Table 2: ImageNet classification comparison for ResNet, Mixer and ResMLP, ViT and DeiT, Swin (Swin Transformer), DW-Conv. 表2: ImageNet classification comparison for ResNet, Mixer and ResMLP, ViT and DeiT, Swin (Swin Transformer), DW-Conv. 0.87
(depth-wise convolution), and D-DW-Conv. (depth-wise convolution)、D-DW-Conv。 0.62
(dynamic depth-wise convolution). (ダイナミックディープワイド・コンボリューション)。 0.54
26M 45M 60M 26M 45M 60M 0.67
4.1G 7.9G 11.6G 4.1G 7.9G 11.6G 0.36
1128.3 652.0 456.7 1128.3 652.0 456.7 0.47
- img. size - img所属。 サイズ 0.79
#param. FLOPs #param。 FLOP 0.80
throughput (img. スループット(img)。 0.74
/ s) top-1 acc. /s) トップ1acc。 0.73
46M 189M 15M 30M 45M 46M189M15M30M45M 0.55
method Bottleneck: convolution with low rank ResNet-50 [21] ResNet-101 [21] ResNet-152 [21] Channel and spatial separable MLP, spatial separable MLP = point-wise 1 × 1 convolution Mixer-B/16 [49] Mixer-L/16 [49] ResMLP-12 [50] ResMLP-24 [50] ResMLP-36 [50] Global attention: dynamic channel separable MLP + spatial separable MLP ViT-B/16 [14] ViT-L/16 [14] DeiT-S [51] DeiT-B [51] DeiT-B [51] Local attention: perform attention in local small windows Swin-T [35] Swin-B [35] Depth-wise convolution + point-wise 1 × 1 convolution DW-Conv.-T DW-Conv.-B D-DW-Conv.-T D-DW-Conv.-B method Bottleneck: convolution with low rank ResNet-50 [21] ResNet-101 [21] ResNet-152 [21] Channel and spatial separable MLP, spatial separable MLP = point-wise 1 × 1 convolution Mixer-B/16 [49] Mixer-L/16 [49] ResMLP-12 [50] ResMLP-24 [50] ResMLP-36 [50] Global attention: dynamic channel separable MLP + spatial separable MLP ViT-B/16 [14] ViT-L/16 [14] DeiT-S [51] DeiT-B [51] DeiT-B [51] Local attention: perform attention in local small windows Swin-T [35] Swin-B [35] Depth-wise convolution + point-wise 1 × 1 convolution DW-Conv.-T DW-Conv.-B D-DW-Conv.-T D-DW-Conv.-B 0.76
55.4G 86M 307M 190.7G 4.6G 22M 86M 17.5G 55.4G 86M 55.4G 86M 307M 190.7G 4.6G 22M 17.5G 55.4G 86M 0.44
83.4 26.5 947.3 298.2 82.7 83.4 26.5 947.3 298.2 82.7 0.44
76.2 77.4 78.3 76.2 77.4 78.3 0.47
76.4 71.8 76.6 79.4 79.7 76.4 71.8 76.6 79.4 79.7 0.44
3.8G 12.9G 3.8G 13.0G 3.8G 12.9G 3.8G 13.0G 0.35
77.9 76.5 79.8 81.8 83.1 77.9 76.5 79.8 81.8 83.1 0.44
81.3 83.3 81.3 83.2 81.9 83.2 81.3 83.3 81.3 83.2 81.9 83.2 0.48
3.0G 6.0G 8.9G 3.0G 6.0G 8.9G 0.36
24M 74M 51M 162M 24M74M51M162M 0.56
928.7 327.6 897.0 322.4 928.7 327.6 897.0 322.4 0.45
2242 2242 2242 2242 2242 2242 0.85
2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 0.85
3842 3842 2242 2242 3842 3842 3842 2242 2242 3842 0.85
2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 0.85
28M 88M 4.5G 15.4G 28M 88M 4.5G 15.4G 0.55
713.5 263.0 713.5 263.0 0.50
real acc. 82.5 83.7 84.1 本物のaccだ 82.5 83.7 84.1 0.46
82.4 77.1 83.3 85.3 85.6 82.4 77.1 83.3 85.3 85.6 0.44
83.6 82.2 85.7 86.7 87.7 83.6 82.2 85.7 86.7 87.7 0.44
86.6 87.9 86.8 87.9 87.3 87.9 86.6 87.9 86.8 87.9 87.3 87.9 0.48
ViT and DeiT - global attention, viewed as dynamic separable MLP. ViTとDeiT - 世界的注目を集め、動的分離可能なMLPと見なされる。 0.64
The reason that the results of ResNets are lower than ResMLP might be the strong training setting used in MLP based methods. ResNetsの結果がResMLPよりも低い理由は、MDPベースの手法で使用される強力なトレーニング設定である可能性がある。 0.72
The overall conclusion seems to be that the locality-based sparsity pattern (adopted in depth-wise convolution and local attention) besides sparsity between channels/spatial positions still facilitates the network training for ImageNet-1K, though separable MLP achieves promising performance. 総合的な結論は、局部性に基づく空間パターン(奥行きの畳み込みと局所的な注意)は、チャネル/空間位置の間隔以外にも、ImageNet-1Kのネットワークトレーニングを促進するが、分離可能なMLPは有望な性能を達成する。 0.57
COCO object detection. COCOオブジェクト検出。 0.75
The comparisons between local attention (Swin Transformer), depth-wise convolution, and dynamic depth-wise convolution are shown in Table 3. 表3に局所注意(スウィン変圧器)、深さ方向畳み込み、動的深さ方向畳み込みの比較を示す。 0.71
In the tiny model case, depthwise convolution performs a little lower than local attention, and dynamic depth-wise convolution performs better than the static version and on par with local attention. 小さなモデルの場合、深度方向の畳み込みは局所的な注意よりも若干小さく、動的深度方向の畳み込みは静的バージョンよりも良く、局所的な注意と同等に働く。 0.64
In the base model case, (dynamic) depth-wise convolution performs a little worse than local attention. 基礎モデルの場合、(動的)深さ方向の畳み込みは局所的な注意よりも少し悪い。 0.69
ADE semantic Segmentation. adeセマンティクスセグメンテーション。 0.35
The comparisons of single scale testing on ADE semantic segmentation are shown in Table 3. ADEセマンティックセグメンテーションにおけるシングルスケールテストの比較を表3に示す。 0.78
In the tiny model case, (dynamic) depth-wise convolution is ~1.0% higher than local attention. 小さいモデルの場合、(動的)深さ方向の畳み込みは局所注意よりも約1.0%高い。 0.73
In the base model case, the performances are similar6. ベースモデルの場合、パフォーマンスは6と似ている。 0.73
Summary. In ImageNet classification, depth-wise convolution and its dynamic variant are superior over local attention: almost the same accuracy with higher computation efficiency. 概要 imagenet分類では、奥行き方向畳み込みとその動的変種は局所的注意よりも優れている: ほぼ同じ精度で計算効率が高い。 0.52
Dynamic depthwise convolution is more advantageous in the tiny model case. 動的深度の畳み込みは、小さなモデルの場合より有利である。 0.73
In COCO object detection, dynamic depth-wise convolution performs the same with local attention for the tiny model, and local attention is superior for the base model. cocoオブジェクトの検出では、動的深さ方向の畳み込みは小さなモデルでは局所的な注意を向け、ベースモデルでは局所的な注意が優れている。 0.65
The reasons might be: (i) the training setting for local attention [35] might not be suitable for depth-wise convolution, or (ii) it is helpful for detection that each position in local attention has its own dynamic weights encoding the information of the corresponding object. i) 局所的注意のためのトレーニング設定 [35] は深度的な畳み込みには適さないかもしれないし, (ii) 局所的注意における各位置が対応する対象の情報を符号化する独自の動的重みを持つことを検出するのに有用である。 0.79
We will conduct a further study by predicting the weights for each position in dynamic depth-wise convolution as done [56]. 我々は,各位置の重みを動的深さ方向の畳み込みで予測し,さらに検討する [56]。 0.71
In ADE semantic segmentation, depth-wise convolution and its dynamic variant are superior over local attention for the tiny model, and the performance is similar for the base model. ADEセマンティックセグメンテーションでは、深度ワイドの畳み込みとその動的変形は小さなモデルでは局所的な注意よりも優れており、ベースモデルでは性能が似ている。 0.77
6We conducted an additional experiment by changing the ending learning rate from 0 to 1e − 6. 6) 終了学習率を0から1e − 6に変更して追加実験を行った。 0.81
The base model with depth-wise convolutions achieves a higher mIoU score: 48.9. 基地 奥行きの畳み込みを持つモデルでは、mIoUスコアが48.9である。 0.46
7 7 0.85
英語(論文から抽出)日本語訳スコア
Table 3: Comparison results on COCO object detection and ADE semantic segmentation. 表3:COCOオブジェクト検出とADEセマンティックセグメンテーションの比較結果。 0.70
Swin-T DW Conv.-T D-DW Conv.-T Swin-B DW Conv.-B D-DW Conv.-B Swin-T DW Conv.-T D-DW Conv.-T Swin-B DW Conv.-B D-DW Conv.-B 0.48
COCO Object Detection COCOオブジェクト検出 0.79
#param. FLOPs APbox APbox 69.3 68.6 69.5 70.9 69.6 70.0 #param。 FLOPs APbox APbox 69.3 68.6 69.5 70.9 69.6 70.0 0.66
86M 747G 82M 730G 108M 730G 145M 986G 132M 924G 219M 924G 86M 747G 82M 730G 108M 730G 145M 986G 132M 924G 219M 924G 0.61
50.5 49.9 50.5 51.9 51.1 51.2 50.5 49.9 50.5 51.9 51.1 51.2 0.43
50 APbox 54.9 54.3 54.6 56.5 55.4 55.4 50 APbox 54.9 54.3 54.6 56.5 55.4 55.4 0.50
75 APmask ADE20K Semantic Segmentation #param. 75APMAsk ADE20K Semantic Segmentation #param 0.76
FLOPs 60M 947G 56M 928G 83M 928G 121M 1192G 108M 1129G 195M 1129G FLOPs 60M 947G 56M 928G 83M 928G 121M 1192G 108M 1129G 195M 1129G 0.63
mIoU 44.5 45.5 45.7 48.1 48.3 48.0 mIoU 44.5 45.5 45.7 48.1 48.3 48.0 0.47
43.7 43.4 43.7 45.0 44.2 44.4 43.7 43.4 43.7 45.0 44.2 44.4 0.43
81 80 81.5 81 80 81.5 0.76
80.5 3.4 Additional Studies Weight sharing. 80.5 3.4 追加研究 体重共有。 0.67
We study how the performance is affected by the number of channels in each group across which the weights are shared (the numbers of attention heads at each stage are accordingly changed). 重みが共有される各グループのチャネル数(各ステージの注意ヘッド数の変化)がパフォーマンスに与える影響について検討する。
訳抜け防止モード: 重みが共有される各グループにおけるチャネル数にパフォーマンスがどう影響するかを検討する()。 従って、各ステージの注目ヘッド数を変更する)。
0.73
We use the tiny Swin Transformer model for this study and the subsequent studies. 我々はこの研究とその後の研究に小さなSwin Transformerモデルを使用します。 0.76
The results from Swin Transformer shown in Figure 3 imply that in the case of too many channels and too few channels in each group, the accuracy is not the best. 図 3 に示した swin transformer の結果は、あまりに多くのチャネルがあり、各グループでチャンネルが少なすぎる場合、精度が良くないことを示している。 0.77
In addition, we study how sharing weights across channels for depth-wise convolution affects the performance. さらに, チャネル間の重みの共有が性能に与える影響について検討した。 0.66
We use the same weight sharing pattern across channels in Swin Transformer for sharing weights across channels in depth-wise convolution. また,Swin Transformerのチャネル間の重み共有パターンを用いて,チャネル間の重み共有を行う。 0.67
The ImageNet top-1 accuracy is slightly reduced: from 81.3 to 81.1, implying that proper weight sharing across channels does not have big impact for depth-wise convolution. ImageNet Top-1 の精度は 81.3 から 81.1 までわずかに低下しており、チャネル間の適切な重み共有は深度的な畳み込みに大きな影響を与えないことを示している。 0.63
Dynamic weight. We study how dynamic weight in local attention affects the performance. 動的重量。 局所的な注意の動的重みがパフォーマンスに与える影響について検討する。 0.64
We study the static variant: learn the weights in each window as model parameters (the weights are not shared across windows). 各ウィンドウの重みをモデルパラメータとして学習する(重みはウィンドウ間で共有されない)。
訳抜け防止モード: 静的変異について研究する。 各ウィンドウの重みをモデルパラメータとして学習する(重みはwindowsで共有されない)。
0.73
The static version achieves the ImageNet top-1 accuracy 80.3%, lower than the dynamic version 81.3% for the tiny model, implying that dynamic weight is helpful. 静的バージョンはimagenet top-1の80.3%の精度を達成し、小さなモデルではダイナミックバージョン81.3%よりも低い。 0.71
We point out that the static variant is a locally-connected version of separable MLP (ResMLP): the MLP over each channel (spatial/token mixing) is done over each window, other than the whole image space. 静的な変種は分離可能なMPP(ResMLP)の局所接続版であり、各チャネル上のMPP(空間/トーケン混合)は、画像空間全体以外の各ウィンドウ上で実行される。
訳抜け防止モード: 静的な変種は分離可能なMLP (ResMLP ) の局所接続版であり、各チャネル上の MLP (空間/トークン混合) は各ウィンドウ上で実行される。 全体像空間以外は
0.78
The results are shown in Table 4 (DW = depth-wise conv.). 結果は表4(DW = depth-wise conv.)に示される。 0.84
As a comparison, we also show the results of dynamic depth-wise convolution. 比較として,動的深さ方向畳み込みの結果を示す。 0.73
Set representation. Local attention represents the positions in a window as a set with the spatialorder information lost. 表現を設定する。 局所的注意は、空間順序情報が失われる集合としてウィンドウ内の位置を表す。 0.66
Swin Transformer learns relative positional embeddings where the positions in a window are actually described as a vector keeping the spatial-order information. Swin Transformerは、ウィンドウ内の位置が実際に空間順序情報を保持するベクトルとして記述される相対的な位置埋め込みを学習する。 0.71
It is reported in [35] that removing the relative positional embeddings leads to a 1.2% accuracy drop, indicating the spatial-order information is important. 相対的な位置埋め込みを除去すると1.2%の精度低下が生じ,空間次数情報の重要性が示唆された。 0.71
Retraining on 384 × 384 images. 384×384画像のリトレーニング。 0.70
Similar to [35], we study the performance of fine-tuning the models: first learn with 224 × 224 images, then fine-tune on large images of 384 × 384. まず, 224 × 224 画像から学習し, 384 × 384 大画像上で微調整を行う。
訳抜け防止モード: 35 ] と同様、モデルを調整するファインのパフォーマンスについて検討する : 224 × 224 の画像からはじめて学習する。 384 × 384 の大きい画像にチューニングする。
0.84
We study two cases: (1) keep the window size 7 × 7 unchanged; and (2) upsample the kernel weights from 7 × 7 to 12 × 12 as done in [35] for upsampling the relative positional embeddings. 本研究では,(1)ウィンドウサイズを7×7に保ち,(2)カーネルの重みを7×7から12×12にアップサンプルし, [35] 相対的な位置埋め込みをアップサンプリングする。 0.72
The results are in Table 57. 結果は第57表にある。 0.75
In the case of keeping the window size 7 × 7 unchanged, depth-wise convolution (DW) performs better. ウィンドウサイズ7×7が変化しない場合、深度ワイド・コンボリューション(DW)が向上する。 0.63
When using a larger window size 12× 12, depth-wise convolution performs worse than 7×7. 12×12の大きなウィンドウサイズを使用する場合、深さ方向の畳み込みは7×7より悪い。 0.66
We suspect that this is because upsampling the kernel weights is not a good starting for fine-tuning. これは、カーネルの重みのアップサンプリングが微調整の出発点にならないためだろう。 0.54
In Swin Transformer, using a larger window size improves the performance. Swin Transformerでは、より大きなウィンドウサイズを使用することでパフォーマンスが向上する。 0.70
We believe that this is because the local attention mechanism is suitable for variable window sizes. これは、ローカルアテンション機構が可変ウィンドウサイズに適しているためであると信じている。 0.71
Cooperating with SE. Squeeze-and-excitati on [26] (SE) is a parameter- and computation-efficient dynamic module, initially designed for improving the ResNet performance. SEと協力する。 Squeeze-and-excitati on [26] (SE) はパラメータと計算効率の動的モジュールで、当初はResNetの性能向上のために設計された。 0.69
The results in Table 6 show that depth-wise convolution (DW), a static module, benefits from the SE module, while Swin 表6の結果は、静的モジュールであるdw( depth-wise convolution)がseモジュールの恩恵を受けていることを示している。
訳抜け防止モード: 表6の結果は、深さ-賢明な畳み込み(DW)を示している。 静的モジュール、SEモジュールの利点、Swin
0.76
Figure 3: Effect of #channels sharing the weights on ImageNet classification. 図3: 重みを共有する#channelsがimagenetの分類に及ぼす影響。 0.77
Too many and too few channels sharing the weights do not lead to the best ImageNet classification accuracy. 重みを共有するチャネルが多すぎると、最高のイメージネット分類精度が得られない。 0.65
96 6 #channels within each group 96 6 # Channels in each group 0.79
16 48 32 7Swin Transformer takes slightly higher FLOPs for 7 × 7 than 12 × 12. 16 48 32 7Swin Transformer は 7 × 7 の FLOP を 12 × 12 よりわずかに高めている。 0.84
The higher computation cost comes 計算コストが高いほど 0.72
from larger padding than 12 × 12. 12×12より大きいパッドから。 0.70
8 8 0.85
英語(論文から抽出)日本語訳スコア
 Table 4: Dynamic weight.  テーブル4: 動的重量。 0.81
dynamic #params FLOPs Acc. dynamic #params FLOPs Acc 0.66
26M 3.8G 80.3 28M 4.5G 81.3 24M 3.8G 81.3 51M 3.8G 81.9 26M 3.8G 80.3 28M 4.5G 81.3 24M 3.8G 81.3 51M 3.8G 81.9 0.41
 Swin DW Table 5: Retrain on larger images.  水泳 DW 表5: より大きな画像の再トレーニング。 0.67
model ws. #param. モデル ws。 #param。 0.75
FLOPs Acc. Swin 7×7 28M 14.4G 81.8 12×12 28M 14.2G 82.4 DW 7×7 24M 11.1G 82.2 12×12 25M 11.5G 82.1 FLOPs Acc Swin 7×7 28M 14.4G 81.8 12×12 28M 14.2G 82.4 DW 7×7 24M 11.1G 82.2 12×12 25M 11.5G 82.1 0.49
Table 6: Cooperate with SE. 表6: SEとの連携。 0.84
model SE #param. モデル SE #param。 0.76
FLOPs Acc. 28M 4.5G 81.3 Swin  29M 4.5G 81.2 24M 3.8G 81.3  24M 3.8G 81.7 FLOPs Acc 28M 4.5G 81.3 スイムシ29M 4.5G 81.2 24M 3.8G 81.3 シュ24M 3.8G 81.7 0.49
DW Transformer, already a dynamic module, does not benefit from dynamic module SE. DW Transformerは、既に動的モジュールであり、動的モジュールSEの恩恵を受けない。 0.85
The reason is still unclear, and might lie in the optimization. 理由はまだ不明であり、最適化に関係している可能性がある。 0.58
4 Related Work Sparse connectivity. 4 関連作業の疎結合。 0.77
Sparse connection across channels is widely explored for removing redundancy in the channel domain. チャネル間の疎結合は、チャネル領域の冗長性を取り除くために広く研究されている。 0.62
The typical schemes are depth-wise convolution adopted by MobileNet [23, 43], ShuffleNetV2 [37] and IGCv3 [44], and group convolution adopted by ResNeXt [59], ShuffleNetV1 [69], and IGC [68]. 典型的なスキームは、MobileNet [23, 43]、ShuffleNetV2 [37]、IGCv3 [44]で採用されるディープワイド畳み込み、ResNeXt [59]、ShuffleNetV1 [69]、IGC [68]で採用されるグループ畳み込みである。 0.70
The self-attention unit8 in Vision Transformer, its variants [5, 8, 14, 19, 22, 32, 35, 40, 51, 52, 55, 57, 62, 63, 66, 71, 74], and the spatial information fusion unit (e g , token-mixer in MLP-Mixer [49] and ResMLP [50]) have no connections across channels. Vision Transformerのセルフアテンションユニット8、その変種(5, 8, 8, 19, 22, 32, 35, 40, 51, 52, 55, 57, 62, 63, 66, 71, 74]、空間情報融合ユニット(例えば、MLP-Mixer[49]とResMLP[50])はチャネル間の接続を持たない。
訳抜け防止モード: Vision TransformerのSelf- attention Unit8は、その変種[5]だ。 8, 14, 19, 22, 32, 35, 40, 51, 52, 55, 57, 62, 63,66,71,74]及び空間情報融合ユニット(eg) トークン - MLPのミキサー - Mixer [49 ] と ResMLP [50 ] ) はチャネル間の接続を持たない。
0.84
1 × 1 (point-wise) convolution (in ShuffleNetV2 [37], MobileNet [23, 43], IGC [68], ViT [14], local ViT [35, 52], MLP-Mixer [49], ResMLP [50]) has no connections across spatial positions. 1×1(ポイントワイド)の畳み込み(ShuffleNetV2[37], MobileNet [23,43], IGC [68], ViT [14], local ViT [35,52], MLP-Mixer [49], ResMLP [50])は空間的位置をまたぐ接続を持たない。 0.81
The convolutions with other kernel sizes and local attention [71, 35, 52] have connections between each position and the positions within a small local window, respectively. 他のカーネルサイズと局所的注意 [71, 35, 52] との畳み込みは、それぞれ小さなローカルウィンドウ内の各位置と位置との間の接続を有する。 0.87
In addition to hand-crafted sparse connections, various methods are developed for learning sparse connections, e g , CondenseNet [27] and dynamic grouping [70]. 手作りのスパース接続に加えて、スパース接続(例えば、コンデンスネット[27]と動的グループ化[70])を学ぶための様々な方法が開発されている。 0.67
Weight sharing. Weight sharing across spatial positions is mainly used in convolution, including normal convolution, depth-wise convolution and point-wise convolution. 重量共有。 空間的な位置における重みの共有は、通常畳み込み、奥行き畳み込み、ポイント方向畳み込みなど、畳み込みに主に用いられる。 0.62
Weight sharing across channels is adopted in the attention unit [53], its variants [7, 8, 14, 32, 35, 51, 52, 55, 57, 63], and token-mixer MLP in MLP-mixer [49] and ResMLP [50]. 注意ユニット[53]とその変種[7,8,14,32,35,51,52,5 5,57,63]及びmlpミキサー[49]及びresmlp[50]におけるトークンミキサーmlpに、チャネル間の重量の共有が採用されている。
訳抜け防止モード: 注目部[53]には、チャンネル間のウェイトシェアリングが採用されている。 7, 8, 14, 32, 35, 51, 52, 55, 57, 63 ], and token -mixer MLP in MLP - Mixer [49 ] そしてResMLP [50 ]。
0.81
Dynamic weight. Predicting the connection weights is widely studied in convolutional networks. 動的重量。 接続重みの予測は畳み込みネットワークで広く研究されている。 0.74
There are basically two types. 基本的に2種類ある。 0.78
One is to learn homogeneous connection weights, e g , SENet [26], dynamic convolution [30]. 1つは均質な接続重み(例えば、senet [26], dynamic convolution [30])を学ぶことである。 0.77
The other is to learn the weights for each region or each position (GENet [25], Lite-HRNet [61], Involution [32]). もう1つは、各領域または各位置の重み(genet [25]、 Lite-HRNet [61]、Involution [32])を学習することである。 0.71
The attention unit in ViT or local ViT learns dynamic connection weights for each position. ViTまたはローカルViTのアテンションユニットは、各位置の動的接続重みを学習する。 0.78
Networks built with depth-wise separable convolutions. 深度的に分離可能な畳み込みで構築されたネットワーク。 0.47
There are many networks built upon depth-wise separable convolution or its variants, such as MobileNet [23, 43], ShuffleNet [37], IGC [68], Xception [6], and EfficientNet [46, 47]. MobileNet [23, 43], ShuffleNet [37], IGC [68], Xception [6], EfficientNet [46, 47] など,Deep-wise Separable Convolutionあるいはその変種に基づいて構築されたネットワークが数多く存在する。 0.84
In this paper, instead of proposing new convolutional modules or improving depth-wise separable convolution, our goal is to compare depth-wise convolution with local attention. 本稿では,新しい畳み込みモジュールを提案するか,奥行き分離可能な畳み込みを改善するかわりに,深方向畳み込みと局所注意を比較することを目的とする。 0.58
Convolution vs Transformer. コンボリューション対トランスフォーマー。 0.58
The study in [10] shows that a multi-head self-attention layer can simulate a convolutional layer by taking into consideration the linear projection conducted on values, and with specific conditions, e g , well-designed relative positional embeddings and losing the dynamic weight scheme. The study in [10] shows that a multi-head self-attention layer cansimulated a convolutional layer using to consider the linear projection on values, and with specific conditions, eg , well-designed relative positional embeddeds and lost the dynamic weight scheme。 0.83
Differently, our analysis and comparison do not need the linear projection conducted on values, and the connections are discussed for local attention with depth-wise convolution other than normal convolution. 異なる方法では, 解析と比較では値に基づく線形射影は不要であり, 通常の畳み込み以外の深さ方向畳み込みを伴う局所的注意が必要である。 0.73
In [1], the mathematical connection (in terms of the tensor form) between convolution and attention is presented. [1]では、畳み込みと注意の間の数学的接続(テンソル形式の観点から)が提示される。 0.77
The opinion that convolution and attention are essentially about the model complexity control is similar to ours, and we make the detailed analysis and report empirical studies. 畳み込みと注意が本質的にモデル複雑性制御に関する意見は、我々のものと似ており、詳細な分析と経験的研究を報告している。 0.71
The concurrently-develop ed work in NLP [48] empirically compares lightweight depth-wise convolution [56] to Transformer for NLP tasks, and reaches a conclusion similar to ours for vision tasks: convolution and Transformer obtain on-par results. NLP[48]における並列開発作業は,軽量深度畳み込み[56]とNLPタスク用トランスフォーマーを実証的に比較し,畳み込みとトランスフォーマーがオンパー結果を得るというビジョンタスクに類似した結論に達した。 0.77
Differently, we attempt to understand why they perform on par from three perspectives: sparse connectivity, weight sharing and dynamic weight, and discuss their similarities and differences. 違いとして、なぜそれらが同等に機能するのかを、疎結合、重み共有、動的重み付けという3つの視点から理解し、それらの類似性と相違について議論する。 0.56
8The pre- and post- linear projections for values can be regarded as 1× 1 convolutions. 8 値の事前および後線形射影は 1 × 1 の畳み込みと見なすことができる。 0.79
The attention weights generated from keys and values with linear projections in some sense mix the information across channels. 注意重み ある意味で線形射影を持つキーと値から生成され、チャネル間で情報を混合する。 0.57
9 9 0.85
英語(論文から抽出)日本語訳スコア
5 Conclusion We aim to understand local attention through the connection to depth-wise convolution. 5 結論 深層的畳み込みへの接続を通して,地域的関心を理解することを目指す。 0.60
The experiments imply that the performance of local attention is on par with (dynamic) depth-wise convolution, suggesting that the good performance of local attention essentially stems from two regularization forms, sparse connectivity and weight sharing, and dynamic weight. 実験結果から,局所的注意力は(動的)深度的な畳み込みと同等であり,局所的注意力の優れた性能は,2つの規則化形式,疎結合性,重量共有性,動的重み付けに起因することが示唆された。 0.73
In addition, we also discuss how the concurrently-develop ed works, e g , ResMLP and MLP-Mixer, are related to ViT and depth-wise convolution. さらに, 並列開発作業であるResMLP, MLP-Mixerが, ViTや深度ワイド・コンボリューションとどのように関係しているかについても論じる。 0.69
As future works, we will study if the training settings and the architecture design for depth-wise convolution can be improved over the current settings adopted from Swin Transformer. 今後の取り組みとして,swinトランスフォーマタが採用する現在の設定よりも,奥行き方向畳み込みのトレーニング設定とアーキテクチャ設計が改善されるかどうか検討する。 0.67
References [1] Jean-Marc Andreoli. ジャン=マルク・アンドレオリ(Jean-Marc Andreoli)。 0.53
Convolution, attention and structure embedding. 進化、注意、構造を埋め込む。 0.52
arXiv:1905.01289, 2019. arxiv: 1905.01289, 2019。 0.43
arXiv preprint arXiv プレプリント 0.83
[2] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. [2] ジミー・レイ・バ、ジェイミー・ライアン・キロス、ジェフリー・e・ヒントン。 0.55
Layer normalization. arXiv preprint 層正規化。 arXiv プレプリント 0.71
arXiv:1607.06450, 2016. arXiv:1607.06450, 2016 0.69
[3] Lucas Beyer, Olivier J Hénaff, Alexander Kolesnikov, Xiaohua Zhai, and Aäron van den Oord. [3]Lucas Beyer, Olivier J Hénaff, Alexander Kolesnikov, Xiaohua Zhai, Aäron van den Oord。 0.73
Are we done with imagenet? imagenetは終わったのか? 0.69
arXiv preprint arXiv:2006.07159, 2020. arXiv preprint arXiv:2006.07159, 2020 0.81
[4] Zhaowei Cai and Nuno Vasconcelos. [4]Zhaowei Cai と Nuno Vasconcelos。 0.74
Cascade r-cnn: high quality object detection and instance Cascade r-cnn: 高品質なオブジェクト検出とインスタンス 0.85
segmentation. IEEE Trans. セグメンテーション IEEE Trans。 0.59
Pattern Anal. Mach. パターンアナル。 Mach 0.54
Intell., 2019. インテリ、2019年。 0.56
[5] Hanting Chen, Yunhe Wang, Tianyu Guo, Chang Xu, Yiping Deng, Zhenhua Liu, Siwei Ma, Chunjing Xu, Chao Xu, and Wen Gao. [5]陳はん、雲雲はん、Tianyu Guo、Chang Xu、Yiping Deng、Zhenhua Liu、Siwei Ma、Chunjing Xu、Chao Xu、Wen Gao。
訳抜け防止モード: [5 ]陳はんはん、雲海王はん、天融愚王はいんゆうぐう) Chang Xu, Yiping Deng, Zhenhua Liu, Siwei Ma チュンジン・チュ、チャオ・チュ、ウェン・ガオ。
0.73
Pre-trained image processing transformer. 予め訓練した画像処理トランス 0.73
arXiv preprint arXiv:2012.00364, 2020. arXiv preprint arXiv:2012.00364, 2020 0.81
[6] François Chollet. フランソワ・ショレット(François Chollet)。 0.53
Xception: Deep learning with depthwise separable convolutions. Xception: 深く分離可能な畳み込みによるディープラーニング。 0.66
In IEEE Conf. Comput. IEEE Conf Comput 0.51
Vis. Pattern Recog., pages 1251–1258, 2017. Vis 1251-1258頁、2017年。 0.51
[7] Xiangxiang Chu, Zhi Tian, Yuqing Wang, Bo Zhang, Haibing Ren, Xiaolin Wei, Huaxia Xia, and Chunhua Shen. [7]Xiangxiang Chu, Zhi Tian, Yuqing Wang, Bo Zhang, Haibing Ren, Xiaolin Wei, Huaxia Xia, Chunhua Shen。 0.76
Twins: Revisiting spatial attention design in vision transformers. twins: 視覚トランスフォーマーにおける空間的注意設計の再検討。 0.69
arXiv preprint arXiv:2104.13840, 2021. arXiv preprint arXiv:2104.13840, 2021 0.81
[8] Xiangxiang Chu, Bo Zhang, Zhi Tian, Xiaolin Wei, and Huaxia Xia. [8]Xiangxiang Chu、Bo Zhang、Zhi Tian、Xiaolin Wei、Huaxia Xia。 0.67
Do we really need explicit 本当に明確なものが必要なのか? 0.37
position encodings for vision transformers? 視覚変換器の位置エンコーディング? 0.72
arXiv preprint arXiv:2102.10882, 2021. arXiv preprint arXiv:2102.10882, 2021 0.80
[9] MMSegmentation Contributors. [9]mmセグメンテーションの貢献者。 0.59
MMSegmentation: Openmmlab semantic segmentation toolbox MMSegmentation: Openmmlab セマンティックセグメンテーションツールボックス 0.87
and benchmark. https://github.com/o pen-mmlab/mmsegmenta tion, 2020. ベンチマークです https://github.com/o pen-mmlab/mmsegmenta tion, 2020 0.45
[10] Jean-Baptiste Cordonnier, Andreas Loukas, and Martin Jaggi. [10]Jean-Baptiste Cordonnier、Andreas Loukas、Martin Jaggi。 0.78
On the relationship between self-attention and convolutional layers. 関係について 自己着脱と畳み込み層。 0.56
In Int. Conf. int所属。 Conf 0.49
Learn. Represent., 2020. 学ぶ。 代表、2020年。 0.70
[11] Ekin D Cubuk, Barret Zoph, Jonathon Shlens, and Quoc V Le. 11]Ekin D Cubuk, Barret Zoph, Jonathon Shlens, Quoc V Le。 0.69
Randaugment: Practical automated data augmentation with a reduced search space. Randaugment: 検索スペースを削減した,実用的な自動データ拡張。 0.72
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., pages 702–703, 2020. Pattern Recog., page 702–703, 2020 0.88
[12] Stéphane d’Ascoli, Hugo Touvron, Matthew Leavitt, Ari Morcos, Giulio Biroli, and Levent Sagun. 12]Stéphane d’Ascoli, Hugo Touvron, Matthew Leavitt, Ari Morcos, Giulio Biroli, Levent Sagun。 0.69
Convit: Improving vision transformers with soft convolutional inductive biases. convit: ソフト畳み込み型インダクティブバイアスによる視覚トランスフォーマーの改善。 0.68
arXiv preprint arXiv:2103.10697, 2021. arXiv preprint arXiv:2103.10697, 2021 0.81
[13] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. [13]Jia Deng、Wei Dong、Richard Socher、Li-Jia Li、Kai Li、Li Fei-Fei。 0.78
Imagenet: A large-scale hierarchical image database. Imagenet: 大規模な階層型イメージデータベース。 0.85
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., pages 248–255. Pattern Recog. 248–255頁。 0.78
Ieee, 2009. Ieee, 2009年。 0.89
[14] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. Alexey Dosovitskiy氏、Lucas Beyer氏、Alexander Kolesnikov氏、Dirk Weissenborn氏、Xiaohua Zhai氏、Thomas Unterthiner氏、Mostafa Dehghani氏、Matthias Minderer氏、Georg Heigold氏、Sylvain Gelly氏、Jakob Uszkoreit氏、Neil Houlsby氏。 0.71
An image is worth 16x16 words: Transformers for image recognition at scale. 画像は16×16ワードで、画像認識のためのトランスフォーマーである。 0.67
In Int. Conf. int所属。 Conf 0.49
Learn. Represent., 2021. 学ぶ。 2021年、死去。 0.67
[15] Shang-Hua Gao, Qi Han, Duo Li, Pai Peng, Ming-Ming Cheng, and Pai Peng. [15]Shang-Hua Gao、Qi Han、Duo Li、Pai Peng、Ming-Ming Cheng、Pai Peng。 0.63
Representative batch normalization with feature calibration. 特徴校正による代表バッチ正規化 0.73
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., 2021. 10 2021年。 10 0.58
英語(論文から抽出)日本語訳スコア
[16] Ian Goodfellow, Yoshua Bengio, Aaron Courville, and Yoshua Bengio. [16]Ian Goodfellow、Yoshua Bengio、Aaron Courville、Yoshua Bengio。 0.68
Deep learning, volume 1. MIT press Cambridge, 2016. 深層学習、第1巻。 ケンブリッジ大学、2016年。 0.54
[17] Meng-Hao Guo, Zheng-Ning Liu, Tai-Jiang Mu, and Shi-Min Hu. [17]メン・ハオ・グオ・Zheng-Ning Liu・Tai-Jiang Mu・Shi-Min Hu 0.55
Beyond self-attention: External attention using two linear layers for visual tasks. 自己注意を超えて: 視覚的なタスクに2つの線形レイヤを使用する外部の注意。 0.57
arXiv preprint arXiv:2105.02358, 2021. arXiv preprint arXiv:2105.02358, 2021 0.81
[18] Kai Han, Yunhe Wang, Hanting Chen, Xinghao Chen, Jianyuan Guo, Zhenhua Liu, Yehui Tang, An Xiao, Chunjing Xu, Yixing Xu, et al A survey on visual transformer. 18]kai han, yunhe wang, hanting chen, xinghao chen, jianyuan guo, zhenhua liu, yehui tang, an xiao, chunjing xu, yixing xu, al a survey on visual transformer. 0.69
arXiv preprint arXiv:2012.12556, 2020. arXiv preprint arXiv:2012.12556, 2020 0.81
[19] Kai Han, An Xiao, Enhua Wu, Jianyuan Guo, Chunjing Xu, and Yunhe Wang. [19]カイ・ハン、アン・シアオ、エンフア・ウー、ジャンユ・グオ、チュンジュン・スー、ユンヘ・ワン 0.49
Transformer in transformer. 変圧器イン 変圧器だ 0.62
arXiv preprint arXiv:2103.00112, 2021. arXiv preprint arXiv:2103.00112, 2021 0.80
[20] Yizeng Han, Gao Huang, Shiji Song, Le Yang, Honghui Wang, and Yulin Wang. [20]yizeng Han, Gao Huang, Shiji Song, Le Yang, Honghui Wang, Yulin Wang. 0.79
Dynamic neural networks: A survey. ダイナミック ニューラルネットワーク: 調査。 0.67
arXiv preprint arXiv:2102.04906, 2021. arXiv preprint arXiv:2102.04906, 2021 0.80
[21] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. [21]開明,Xiangyu Zhang,Shaoqing Ren,Jian Sun。 0.56
Deep residual learning for image recognition. 画像の深い残差学習 認識 0.62
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., pages 770–778, 2016. 770-778頁、2016年。 0.45
[22] Byeongho Heo, Sangdoo Yun, Dongyoon Han, Sanghyuk Chun, Junsuk Choe, and Seong Joon Oh. [22]平等平、サンドゥー・ユン、ドンギョン・ハン、サンギュク・チュン、ジュンスク・チョン、ソンジュン・オ。
訳抜け防止モード: [22]東方平、三道王元、東行音漢 Sanghyuk Chun, Junsuk Choe, and Seong Joon Oh
0.70
Rethinking spatial dimensions of vision transformers. 視覚変換器の空間次元の再考 0.68
arXiv preprint arXiv:2103.16302, 2021. arXiv preprint arXiv:2103.16302, 2021 0.81
[23] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. [23]Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam。 0.78
Mobilenets: Efficient convolutional neural networks for mobile vision applications. Mobilenets: モバイルビジョンアプリケーションのための効率的な畳み込みニューラルネットワーク。 0.75
arXiv preprint arXiv:1704.04861, 2017. arXiv preprint arXiv:1704.04861, 2017 0.79
[24] Han Hu, Zheng Zhang, Zhenda Xie, and Stephen Lin. [24]Hen Hu、Zheng Zhang、Zhenda Xie、Stephen Lin。 0.64
Local relation networks for image 画像の局所的関係ネットワーク 0.86
recognition. In Int. Conf. 認識 int所属。 Conf 0.49
Comput. Vis., pages 3464–3473, 2019. Comput 2019年、3464-3473頁。 0.58
[25] Jie Hu, Li Shen, Samuel Albanie, Gang Sun, and Andrea Vedaldi. [25]Jie Hu、Li Shen、Samuel Albanie、Gang Sun、Andrea Vedaldi。 0.67
Gather-excite: Exploiting feature context in convolutional neural networks. Gather-Excite: 畳み込みニューラルネットワークにおける特徴コンテキストの爆発。 0.61
In Adv. Neural Inform. Adv。 神経インフォーム。 0.46
Process. Syst., 2018. プロセス。 2018年。 0.56
[26] Jie Hu, Li Shen, and Gang Sun. [26]Jie Hu、Li Shen、Gang Sun。 0.62
Squeeze-and-excitati on networks. Squeeze-and-Excitati on Network。 0.49
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., pages 7132–7141, 2018. Pattern Recog., page 7132–7141, 2018. 0.95
[27] Gao Huang, Shichen Liu, Laurens Van der Maaten, and Kilian Q Weinberger. Gao Huang氏、Shichen Liu氏、Laurens Van der Maaten氏、Kilian Q Weinberger氏。 0.55
Condensenet: An efficient densenet using learned group convolutions. Condensenet: 学習グループ畳み込みを用いた効率的な高密度ネット。 0.67
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., pages 2752–2761, 2018. Pattern Recog., page 2752–2761, 2018. 0.95
[28] Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, and Kilian Q Weinberger. [28]Gao Huang氏、Yu Sun氏、Zhuang Liu氏、Daniel Sedra氏、Kilian Q Weinberger氏。 0.75
Deep networks with ディープネットワーク 0.43
stochastic depth. In Eur. 確率的深さ Eur! 0.47
Conf. Comput. Conf Comput 0.49
Vis., pages 646–661. 全646-661頁。 0.65
Springer, 2016. スプリンガー、2016年。 0.60
[29] Sergey Ioffe and Christian Szegedy. 29] セルゲイ・ヨッフェと クリスチャン・セゲディ 0.41
Batch normalization: Accelerating deep network training by reducing internal covariate shift. バッチ正規化: 内部共変量シフトの低減によるディープネットワークトレーニングの高速化。 0.65
In Int. Conf. int所属。 Conf 0.49
Mach. Learn., pages 448–456. Mach 448-456頁。 0.50
PMLR, 2015. 2015年、PMLR。 0.70
[30] Xu Jia, Bert De Brabandere, Tinne Tuytelaars, and Luc Van Gool. 30]Xu Jia, Bert De Brabandere, Tinne Tuytelaars, そしてLuc Van Gool。 0.69
Dynamic filter networks. 動的フィルタネットワーク。 0.76
In Adv. Neural Inform. 院 Adv 神経インフォーム。 0.46
Process. Syst., 2016. プロセス。 2016年6月。 0.67
[31] Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, and Mubarak Shah. [31]Salman Khan, Muzammal Naseer, Munawar Hayat, Syed Waqas Zamir, Fahad Shahbaz Khan, Mubarak Shah。 0.75
Transformers in vision: A survey. 視覚におけるトランスフォーマー: 調査。 0.75
arXiv preprint arXiv:2101.01169, 2021. arXiv preprint arXiv:2101.01169, 2021 0.80
[32] Duo Li, Jie Hu, Changhu Wang, Xiangtai Li, Qi She, Lei Zhu, Tong Zhang, and Qifeng Chen. [32]Duo Li、Jie Hu、Changhu Wang、Xiangtai Li、Qi She、Lei Zhu、Tong Zhang、Qifeng Chen。
訳抜け防止モード: [32 ]Duo Li, Jie Hu, Changhu Wang, Xiangtai Li, Qi She, Lei Zhu, Tong Zhang とQifeng Chenは言う。
0.81
Involution: Inverting the inherence of convolution for visual recognition. Involution: 視覚認識のための畳み込みの継承を反転させる。 0.69
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., 2021. [33] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. 2021年。 [33]tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C Lawrence Zitnick。 0.57
Microsoft coco: Common objects in context. Microsoft Coco: コンテキスト内の共通オブジェクト。 0.83
In Eur. Conf. Comput. Eur! Conf Comput 0.45
Vis., pages 740–755. Springer, 2014. 740-755頁。 2014年春。 0.55
[34] Hanxiao Liu, Zihang Dai, David R So, and Quoc V Le. [34]Hanxiao Liu、Zihang Dai、David R So、Quoc V Le。 0.65
Pay attention to mlps. mlpsに注意しなさい。 0.81
arXiv preprint arXiv プレプリント 0.83
arXiv:2105.08050, 2021. arXiv:2105.08050, 2021 0.71
11 11 0.85
英語(論文から抽出)日本語訳スコア
[35] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. [35]Ze Liu、Yutong Lin、Yue Cao、Han Hu、Yixuan Wei、Zhen Zhang、Stephen Lin、Baining Guo。 0.69
Swin transformer: Hierarchical vision transformer using shifted windows. swin transformer:シフトウィンドウを用いた階層型視覚トランスフォーマー。 0.76
arXiv preprint arXiv:2103.14030, 2021. arXiv preprint arXiv:2103.14030, 2021 0.81
[36] Ilya Loshchilov and Frank Hutter. Ilya Loshchilov氏とFrank Hutter氏。 0.59
Decoupled weight decay regularization. decoupled weight decay regularization の略。 0.68
In Int. Conf. int所属。 Conf 0.49
Learn. Represent. OpenReview.net, 2019. 学ぶ。 代表。 OpenReview.net、2019年。 0.63
[37] Ningning Ma, Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun. [37]寧明摩、Xiangyu Zhang、Hay-Tao Zheng、Jian Sun。 0.76
Shufflenet v2: Practical guidelines Shufflenet v2: 実践ガイドライン 0.94
for efficient cnn architecture design. 効率的なcnnアーキテクチャ設計のために 0.60
In Eur. Conf. Comput. Eur! Conf Comput 0.45
Vis., pages 116–131, 2018. 116-131頁、2018年。 0.61
[38] Luke Melas-Kyriazi. [38]Luke Melas-Kyriazi 0.76
Do you even need attention? あなたは注意さえ必要ですか。 0.69
a stack of feed-forward layers does surpris- フィードフォワード層のスタックがsurprisを行う 0.73
ingly well on imagenet. imagenet によく似ています 0.58
arXiv preprint arXiv:2105.02723, 2021. arXiv preprint arXiv:2105.02723, 2021 0.80
[39] Vinod Nair and Geoffrey E Hinton. 39] Vinod NairとGeoffrey E Hinton。 0.65
Rectified linear units improve restricted boltzmann machines. 整流線形単位は制限ボルツマン機械を改善する。 0.64
In Int. Conf. int所属。 Conf 0.49
Mach. Learn., 2010. Mach 2010年、卒業。 0.55
[40] Zizheng Pan, Bohan Zhuang, Jing Liu, Haoyu He, and Jianfei Cai. [40]Zizheng Pan、Bohan Zhuang、Jing Liu、Haoyu He、Jianfei Cai。 0.64
Scalable visual transformers スケーラブルなビジュアルトランスフォーマー 0.65
with hierarchical pooling. arXiv preprint arXiv:2103.10619, 2021. 階層的なプールで arXiv preprint arXiv:2103.10619, 2021 0.68
[41] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, and Jonathon Shlens. Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, Jonathon Shlens。 0.61
Stand-alone self-attention in vision models. 視覚モデルにおけるスタンドアローンの自己注意。 0.52
In Adv. Neural Inform. Adv。 神経インフォーム。 0.46
Process. Syst., pages 68–80, 2019. プロセス。 2019年、68-80頁。 0.71
[42] Hubert Ramsauer, Bernhard Schäfl, Johannes Lehner, Philipp Seidl, Michael Widrich, Thomas Adler, Lukas Gruber, Markus Holzleitner, Milena Pavlovi´c, Geir Kjetil Sandve, et al Hopfield networks is all you need. Hubert Ramsauer氏、Bernhard Schäfl氏、Johannes Lehner氏、Philipp Seidl氏、Michael Widrich氏、Thomas Adler氏、Lukas Gruber氏、Markus Holzleitner氏、Milena Pavlovi ́c氏、Geir Kjetil Sandve氏など。
訳抜け防止モード: He 42 ] Hubert Ramsauer, Bernhard Schäfl, Johannes Lehner, Philipp Seidl, Michael Widrich, Thomas Adler, Lukas Gruber Markus Holzleitner, Milena Pavlovi ́c, Geir Kjetil Sandve, et al Hopfieldネットワークは、あなたが必要とするすべてです。
0.93
arXiv preprint arXiv:2008.02217, 2020. arXiv preprint arXiv:2008.02217, 2020 0.81
[43] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. Mark Sandler氏、Andrew Howard氏、Menglong Zhu氏、Andrey Zhmoginov氏、Liang-Chieh Chen氏。 0.70
Mobilenetv2: Inverted residuals and linear bottlenecks. Mobilenetv2: 反転残差と線形ボトルネック。 0.76
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., pages 4510–4520, 2018. Pattern Recog., page 4510–4520, 2018. 0.93
[44] Ke Sun, Mingjie Li, Dong Liu, and Jingdong Wang. [44]Ke Sun、Mingjie Li、Dong Liu、Jingdong Wang。 0.67
Igcv3: Interleaved low-rank group igcv3:インターリーブされた低位グループ 0.54
convolutions for efficient deep neural networks. 効率的なディープニューラルネットワークのための畳み込み 0.62
In Brit. Mach. イギリス。 Mach 0.48
Vis. Conf., 2018. Vis 2018年、会長。 0.54
[45] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. [45]Ke Sun、Bin Xiao、Dong Liu、Jingdong Wang。 0.68
Deep high-resolution representation learning for human pose estimation. 人間のポーズ推定のための深い高分解能表現学習 0.66
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., pages 5693–5703, 2019. Pattern Recog., page 5693–5703, 2019. 0.95
[46] Mingxing Tan and Quoc Le. [46]mingxing tan と quoc le です。 0.61
Efficientnet: Rethinking model scaling for convolutional neural Efficientnet:畳み込みニューラルネットワークのモデルスケーリング再考 0.70
networks. In Int. ネットワーク。 int所属。 0.60
Conf. Mach. Learn., pages 6105–6114. Conf Mach 6105-6114頁。 0.50
PMLR, 2019. 2019年、PMLR。 0.72
[47] Mingxing Tan and Quoc V Le. [47]Mingxing TanとQuoc V Le。 0.69
Efficientnetv2: Smaller models and faster training. Efficientnetv2: より小さなモデルと高速なトレーニング。 0.79
arXiv preprint arXiv:2104.00298, 2021. arXiv arXiv:2104.00298, 2021 0.80
[48] Yi Tay, Mostafa Dehghani, Jai Gupta, Dara Bahri, Vamsi Aribandi, Zhen Qin, and Donald Metzler. [48]Yi Tay、Mostafa Dehghani、Jai Gupta、Dara Bahri、Vamsi Aribandi、Zhen Qin、Donald Metzler。 0.66
Are pre-trained convolutions better than pre-trained transformers? 事前訓練された畳み込みは事前訓練された変換器より優れているか? 0.38
arXiv preprint arXiv:2105.03322, 2021. arXiv preprint arXiv:2105.03322, 2021 0.80
[49] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, et al Mlp-mixer: An all-mlp architecture for vision. [49] ilya tolstikhin, neil houlsby, alexander kolesnikov, lucas beyer, xiaohua zhai, thomas unterthiner, jessica yung, daniel keysers, jakob uszkoreit, mario lucic, et al mlp-mixer: an all-mlp architecture for vision 0.75
arXiv preprint arXiv:2105.01601, 2021. arXiv preprint arXiv:2105.01601, 2021 0.81
[50] Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, and Hervé Jégou. Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, Hervé Jégou。 0.74
Resmlp: Feedforward networks for image classification with data-efficient training. Resmlp: データ効率のトレーニングによる画像分類のためのフィードフォワードネットワーク。 0.76
arXiv preprint arXiv:2105.03404, 2021. arXiv preprint arXiv:2105.03404, 2021 0.81
[51] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. Hugo Touvron氏、Matthieu Cord氏、Matthijs Douze氏、Francisco Massa氏、Alexandre Sablayrolles氏、Hervé Jégou氏。 0.66
Training data-efficient image transformers & distillation through attention. データ効率のよい画像変換器の訓練と注意による蒸留 0.64
arXiv preprint arXiv:2012.12877, 2020. arXiv preprint arXiv:2012.12877, 2020 0.81
[52] Ashish Vaswani, Prajit Ramachandran, Aravind Srinivas, Niki Parmar, Blake Hechtman, and Jonathon Shlens. 52]Ashish Vaswani, Prajit Ramachandran, Aravind Srinivas, Niki Parmar, Blake Hechtman, Jonathon Shlens。 0.73
Scaling local self-attention for parameter efficient visual backbones. パラメータ効率の良い視覚バックボーンのための局所自己アテンションのスケーリング 0.58
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., 2021. 12 2021年。 12 0.58
英語(論文から抽出)日本語訳スコア
[53] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 53]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin。 0.76
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In Adv. Neural Inform. Adv。 神経インフォーム。 0.46
Process. Syst., pages 5998–6008, 2017. プロセス。 2017年、5998-6008頁。 0.69
[54] Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, et al Deep high-resolution representation learning for visual recognition. 54]jingdong wang, ke sun, tianheng cheng, borui jiang, chaorui deng, yang zhao, dong liu, yadong mu, mingkui tan, xinggang wang, et al deep high- resolution representation learning for visual recognition
訳抜け防止モード: [54 ]ジンドン・ワン、ケ・サン、ティアン・チェン、 Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu Yadong Mu, Mingkui Tan, Xinggang Wang, et al High - 視覚認識のための解像度表現学習。
0.78
IEEE Trans. IEEE Trans。 0.82
Pattern Anal. Mach. パターンアナル。 Mach 0.54
Intell., 2020. インテリ、2020年。 0.64
[55] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. [55]ウェンハイ・ワン、エンゼ・シー、Xiang Li、Deng-Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shao。
訳抜け防止モード: [55 ]文海王,円是,Xiang Li, Deng - Ping Fan, Kaitao Song, Ding Liang, Tong Lu Ping LuoとLing Shao。
0.72
Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. ピラミッドビジョントランスフォーマー:畳み込みのない密集した予測のための多用途なバックボーン。 0.68
arXiv preprint arXiv:2102.12122, 2021. arXiv preprint arXiv:2102.12122, 2021 0.81
[56] Felix Wu, Angela Fan, Alexei Baevski, Yann N. Dauphin, and Michael Auli. Felix Wu氏、Angela Fan氏、Alexei Baevski氏、Yann N. Dauphin氏、Michael Auli氏。 0.73
Pay less attention with lightweight and dynamic convolutions. 注意を払わない 軽量でダイナミックな畳み込みです 0.60
In Int. Conf. int所属。 Conf 0.49
Learn. Represent., 2019. 学ぶ。 2019年、代表。 0.72
[57] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, and Lei Zhang. [57]羽林、ビン・シアオ、ノエル・コーデッラ、メンチェン・リウ、西陽大、ル・ユアン、ライ・チャン
訳抜け防止モード: [57 ]アップ・ウー、ビン・シアオ、ノエル・コーデッラ Mengchen Liu氏、Xiyang Dai氏、Lu Yuan氏、Lei Zhang氏。
0.65
Cvt: Introducing convolutions to vision transformers. cvt:視覚トランスフォーマーに畳み込みを導入する。 0.73
arXiv preprint arXiv:2103.15808, 2021. arXiv preprint arXiv:2103.15808, 2021 0.81
[58] Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang, and Jian Sun. [58]テテ・シアオ、Yingcheng Liu、Bolei Zhou、Yuning Jiang、Jian Sun。 0.61
Unified perceptual parsing Unified Perceptual Parsing 0.70
for scene understanding. シーンの理解のために 0.66
In Eur. Conf. Comput. Eur! Conf Comput 0.45
Vis., pages 418–434, 2018. 418-434頁、2018年。 0.61
[59] Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, and Kaiming He. 59] Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He。 0.68
Aggregated residual transformations for deep neural networks. ディープニューラルネットワークのための集約残差変換 0.69
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., pages 1492–1500, 2017. 1492-1500頁、2017年。 0.54
[60] Weijian Xu, Yifan Xu, Tyler Chang, and Zhuowen Tu. [60]Weijian Xu、Yifan Xu、Tyler Chang、Zhuowen Tu。 0.66
Co-scale conv-attentional image Co-scale conv-attentional image 0.59
transformers. arXiv preprint arXiv:2104.06399, 2021. 変圧器だ arXiv preprint arXiv:2104.06399, 2021 0.68
[61] Changqian Yu, Bin Xiao, Changxin Gao, Lu Yuan, Lei Zhang, Nong Sang, and Jingdong Wang. [61]長慶、ビン・シアオ、チャンシン・ガオ、ル・ユアン、ライ・チャン、ナン・サン、ジンドン・ウォン。
訳抜け防止モード: [61 ]長慶庵雄、ビン・シアオ、チャンキシン・ガオ、 Lu Yuan氏、Lei Zhang氏、Nong Sang氏、Jingdong Wang氏。
0.70
Lite-hrnet: A lightweight high-resolution network. Lite-hrnet:軽量高解像度ネットワーク。 0.73
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., 2021. [62] Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu, and Wei Wu. 2021年。 [62] クン元、シャペン・グオ、ジヴァイ・リウ、アオジュン・周、フェンウェイ・ユ、ヴァイ・ウー 0.36
Incorporating convolution designs into visual transformers. 組み込む 畳み込み設計を視覚トランスフォーマーに変換する。 0.60
arXiv preprint arXiv:2103.11816, 2021. arXiv preprint arXiv:2103.11816, 2021 0.81
[63] Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis EH Tay, Jiashi Feng, and Shuicheng Yan. [63]李元・雲山陳・王太・李文・志祐順・フランシス・エー・タイ・直シ・チャン・周チェン・ヤン
訳抜け防止モード: [63 ]李元、元の陳、唐王、 Weihao Yu, Yujun Shi, Francis EH Tay, Jiashi Feng そして、Shuicheng Yan。
0.70
Tokens-to-token vit: Training vision transformers from scratch on imagenet. tokens-to-token vit: imagenet上のスクラッチからビジョントランスフォーマーをトレーニングする。 0.61
arXiv preprint arXiv:2101.11986, 2021. arXiv preprint arXiv:2101.1 1986, 2021 0.72
[64] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. [64]サンドゥー・ユン、ドンギョン・ハン、ソンジュン・オ、サンギュク・チュン、ジュンジュン・チョン、ヨンジュン・ヨー。
訳抜け防止モード: 【64歳】サン・ドゥー・ユン、ドンギョン・ハン、ソンジュン・オ、 sanghyuk chun、junsuk choe、youngjoon yoo。
0.65
Cutmix: Regularization strategy to train strong classifiers with localizable features. Cutmix: ローカライズ可能な機能を備えた強力な分類器をトレーニングするための正規化戦略。 0.48
In Int. Conf. int所属。 Conf 0.49
Comput. Vis., pages 6023–6032, 2019. Comput 第6023-6032頁、2019年。 0.55
[65] Hongyi Zhang, Moustapha Cissé, Yann N. Dauphin, and David Lopez-Paz. [65]Hongyi Zhang、Moustapha Cissé、Yann N. Dauphin、David Lopez-Paz。 0.79
mixup: Beyond mixup: Beyond 0.85
empirical risk minimization. In Int. 経験的リスク最小化 int所属。 0.62
Conf. Learn. Represent., 2018. Conf 学ぶ。 2018年代表。 0.59
[66] Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei Zhang, and Jianfeng Gao. [66]Pengchuan Zhang、Xiyang Dai、Jianwei Yang、Bin Xiao、Lu Yuan、Lei Zhang、Jianfeng Gao。
訳抜け防止モード: [66 ]Pengchuan Zhang,Xiyang Dai,Jianwei Yang, Bin Xiao氏、Lu Yuan氏、Lei Zhang氏、Jianfeng Gao氏。
0.80
Multi-scale vision longformer: A new vision transformer for high-resolution image encoding. マルチスケール・ビジョン・ロングフォーマ -高解像度画像符号化のための新しいビジョン・トランスフォーマ- 0.69
arXiv preprint arXiv:2103.15358, 2021. arXiv preprint arXiv:2103.15358, 2021 0.81
[67] Qinglong Zhang and Yubin Yang. [67]青龍張とユビン・ヤン。 0.67
Rest: An efficient transformer for visual recognition. Rest: 視覚認識のための効率的なトランスフォーマー。 0.72
arXiv preprint arXiv:2105.13677, 2021. arXiv arXiv:2105.13677, 2021 0.79
[68] Ting Zhang, Guo-Jun Qi, Bin Xiao, and Jingdong Wang. [68]Ting Zhang、Guo-Jun Qi、Bin Xiao、Jingdong Wang。 0.74
Interleaved group convolutions. グループ畳み込みのインターリーブ。 0.54
In Int. Conf. int所属。 Conf 0.49
Comput. Vis., pages 4373–4382, 2017. Comput 2017年、4373-4382頁。 0.57
[69] Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun. [69]Xiangyu Zhang、Xinyu Zhou、Mengxiao Lin、Jian Sun。 0.70
Shufflenet: An extremely efficient convolutional neural network for mobile devices. Shufflenet: モバイルデバイス用の極めて効率的な畳み込みニューラルネットワーク。 0.83
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., pages 6848–6856, 2018. Pattern Recog., page 6848–6856, 2018. 0.95
[70] Zhaoyang Zhang, Jingyu Li, Wenqi Shao, Zhanglin Peng, Ruimao Zhang, Xiaogang Wang, and Ping Luo. [70]Zhaoyang Zhang、Jingyu Li、Wenqi Shao、Zhanglin Peng、Ruimao Zhang、Xiaogang Wang、Ping Luo。 0.70
Differentiable learning-to-group channels via groupable convolutional neural networks. グループ型畳み込みニューラルネットワークによるグループ間異なる学習チャネル。 0.67
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., pages 3542–3551, 2019. Pattern Recog., page 3542–3551, 2019. 0.95
13 13 0.85
英語(論文から抽出)日本語訳スコア
[71] Hengshuang Zhao, Jiaya Jia, and Vladlen Koltun. [71]Hongshuang Zhao, Jiaya Jia, Vladlen Koltun。 0.66
Exploring self-attention for image recognition. 画像認識のための自己注意探索 0.70
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., June 2020. 2020年6月発売。 0.46
[72] Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, and Yi Yang. 72]zhun zhong, liang zheng, guoliang kang, shaozi li, yi yang。 0.54
Random erasing data augmentation. ランダム消去データ 拡張。 0.60
In Assoc. Adv. アサック出身。 Adv 0.45
Artif. Intell., volume 34, pages 13001–13008, 2020. Artif 第34巻、第13001-13008頁、2020年。 0.54
[73] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. [73]Bolei Zhou、Hang Zhao、Xavier Puig、Sanja Fidler、Adela Barriuso、Antonio Torralba。 0.68
Scene parsing through ade20k dataset. ade20kデータセットによるシーン解析。 0.55
In IEEE Conf. IEEE Confに登場。 0.83
Comput. Vis. Comput Vis 0.50
Pattern Recog., pages 633–641, 2017. 633-641頁、2017年。 0.42
[74] Daquan Zhou, Bingyi Kang, Xiaojie Jin, Linjie Yang, Xiaochen Lian, Qibin Hou, and Jiashi [74]大覚周、平康、西大寺金、林江陽、Xiaochen Lian、Qibin Hou、jiashi
訳抜け防止モード: [74 ]ダカン・周、ビンギ・カン、キヤオジエ・ジン Linjie Yang, Xiaochen Lian, Qibin Hou, Jiashi
0.64
Feng. Deepvit: Towards deeper vision transformer. Feng deepvit: より深いビジョントランスフォーマーを目指しています。 0.55
arXiv preprint arXiv:2103.11886, 2021. arXiv preprint arXiv:2103.11886, 2021 0.81
14 14 0.85
英語(論文から抽出)日本語訳スコア
APPENDIX A Matrix Form for Explaining Relation Graph appendIX 関係グラフを説明するための行列形式 0.59
We use the matrix form to explain sparsity connectivity in various layers and how they are obtained by modifying the MLP. 種々の層における空間接続性を説明するために行列形式を用い,MLPの修正によってどのように得られるかを説明する。
訳抜け防止モード: マトリックス形式を使い 種々の層におけるスパーシリティ接続と、mlpを改変してどのように得られるかを説明する。
0.63
We reshow the relation graph in Figure 4. 図4で関係グラフを再表示します。 0.79
MLP. The term MLP, Multilayer Perceptron, is used ambiguously, sometimes loosely to any feedforward neural network. MLP。 MLP(Multilayer Perceptron)という用語は、任意のフィードフォワードニューラルネットワークに対して曖昧に、時には緩やかに使用される。 0.71
We adopt one of the common definitions, and use it to refer to fully-connected layers. 私たちは共通の定義の1つを採用し、それを完全に接続されたレイヤを参照するために使用します。 0.49
Our discussion is based on a single fully-connected layer, and can be easily generalized to two or more fully-connected layers. 私たちの議論は、単一の完全接続層に基づいており、2つ以上の完全接続層に簡単に一般化することができます。 0.60
One major component, except the nonlinear units and others, is a linear transformation: 非線形単位などを除く主要な成分の1つは線型変換である。 0.77
where x represents the input neurons, y represents the output neurons, and W represents the connection weights, e g , W ∈ RN C×N C, where N is the number of positions, and C is the number of channels. x は入力ニューロンを表し、y は出力ニューロンを表し、W は接続重み、eg , W ∈ RN C×N C であり、N は位置の個数、C はチャネルの数を表す。 0.66
y = Wx, (7) y = Wx, (7) 0.85
Figure 4: Relation graph for convolution (Conv. 図4: 畳み込み(畳み込み)のための関係グラフ。 0.68
), depth-wise separable convolution (DW-S Conv. ),深度的に分離可能な畳み込み(DW-S Conv。 0.60
), Vision Transformer (ViT) building block, local ViT building block, as well as Sep. MLP (e g , MLP-Mixer and ResMLP) in terms of sparse connectivity and dynamic weight. ビュートランスフォーマー(ViT)ビルディングブロック、ローカルViTビルディングブロック、およびSep.MLP(例えば、MLP-MixerとResMLP)は、疎結合性と動的ウェイトである。
訳抜け防止モード: ) Vision Transformer (ViT ) building block, local ViT building block Sep. MLP (例: MLP - Mixer と ResMLP ) と同様に、疎結合性と動的ウェイトの観点からも。
0.82
Dim. = dimension including spatial and channel, Sep. = separable, LR = low rank, MS Conv. うーん。 =空間とチャネルを含む次元 sep. = separable, lr = low rank, ms conv。 0.54
= multi-scale convolution, PVT = pyramid vision transformer. PVT = ピラミッド・ビジョン・トランスフォーマー。 0.52
Convolution. Considering the 1D case with a single channel (the 2D case is similar), the connection weight matrix W ∈ RN×N is in the following sparse form, also known as the Toeplitz matrix (We use the window size 3 as an example): 革命。 単一のチャネルを持つ 1D の場合 (2D の場合と似ている) を考えると、連結重み行列 W ∈ RN×N は以下のスパース形式であり、トピッツ行列 (Toeplitz matrix) とも呼ばれる。
訳抜け防止モード: 革命。 一つのチャンネルを持つ1Dの場合を考える(2Dの場合と似ている)。 連結重み行列 W ∈ RN×N は以下のスパース形式である。 Toeplitz matrix (複数形 Toeplitz matrixs) ウィンドウサイズ3を例として使用します。
0.63
 W =  W = 0.85
a2 a3 0 a1 a2 a3 ... ... a3 a2 a3 0 a1 a2 a3... 0.76
... 0 0 0 0 ... 0 0 0 0 0.78
a1 0 0 ··· ··· 0 ... a10 0 ··· ··· 0 ... 0.52
... ... 0 ··· a1 a2 ...0····a1 a2 0.58
...  . ...  . 0.72
(8) (9) C ](cid:62), For the C-channel case, we organize the input into a vector channel by channel: [x(cid:62) and accordingly the connection weight matrix channel by channel for the coth output channel, Wco = [Wco1 Wco2 . (8) (9) c ](cid:62) は c チャネルの場合、入力をチャネルによってベクトルチャネルにまとめる: [x(cid:62) したがって、coth 出力チャネル wco = [wco1 wco2 に対するチャネルごとの接続重み行列チャネルである。 0.85
. . WcoC] (the form of Wcoi is the same as Equation 8). . . WcoC] (Wcoiの形式はEquation 8と同じ)。 0.78
The whole form could be written as 全体形は次のように書くことができる。 0.51
2 . . . x(cid:62) 2 . . . x(cid:62) 0.85
1 x(cid:62) 1 x(cid:62) 0.88
 =   =  0.85
 y1 y2 ... yC  y1 y2 ... yC 0.75
W1 W2 ... WC W1 W2 ... WC 0.65
    0.85
x1 x2 ... xC x1 x2 ... xC 0.65
 . Sep. MLP.  . MLP。 0.69
Sep. MLP, e g , ResMLP and MLP-Mixer, is formed with two kinds of block-sparse matrices: one for channel-mixing and the other for spatial-mixing. Sep. MLP, eg, ResMLP, MLP-Mixer は, チャネル混合用と空間混合用という2種類のブロックスパース行列で形成される。 0.84
In the case that the input is 15 入力がある場合 15 0.64
regularizationPyrami dMSConv.LocalitySep. Dim.Sep.LocalitySep. Dim.Sep.SpatialSpati alLRChannelLRViTMLPC onv.SparseConnection DynamicWeightLow-Ran kBottleneckDW-SConv. LocalViTSep.MLPLRMLP Dim.LRDynamicPVTLoca litySep.SpatialLR 正規化PyramidMSConv.Locali tySep.Dim.LocalitySe p.Dim.Sep.SpatialSpa tialLRChannelLRViTML PConv.SparseConnecti onDynamicWeightLow-R ankBottleneckDW-SCon v.LocalViTSep.MLPLRM LPDim.LRDynamicPVTLo calitySep.SpatialLR 0.05
英語(論文から抽出)日本語訳スコア
organized channel by channel (the neurons in each channel form a group), x = [x(cid:62) the connection weight matrix is in a block-sparse form: チャネルによる組織化されたチャネル(各チャネルのニューロンはグループを形成する) x = [x(cid:62) 接続重み行列はブロックスパース形式である。 0.80
1 x(cid:62) 1 x(cid:62) 0.88
2 . . . x(cid:62) 2 . . . x(cid:62) 0.85
C ](cid:62), C](cid:62)。 0.87
W = Wc 0 0 Wc ... ... W = wc 0 0 wc ... 0.88
0 0 0 0 ··· 0 ··· 0 ... ... ... ··· 0 Wc 0 0 0 0 ··· 0 ··· 0 ... ... ... ··· 0 Wc 0.78
where the block matrices Wc ∈ RN×N are shared across all the channels, and the sharing pattern can be modified to share weights within each group of channels. ここでブロック行列 Wc ∈ RN×N はすべてのチャネルで共有され、共有パターンは各チャネルのグループ間で重みを共有するように変更できる。 0.78
The input can be reshaped position by position (the neurons at each position forms a group): x = [x(cid:62) N ](cid:62), and similarly one more connection weight matrix can be formulated in a block1 x(cid:62) sparse form (it is essentially a 1 × 1 convolution, Wp ∈ RC×C): 0 0 x = [x(cid:62) n ](cid:62) であり、同様に1つの接続重み行列はブロック1x(cid:62)スパース形式(本質的には1×1畳み込み、wp ∈ rc×c): 0 0 で定式化できる。
訳抜け防止モード: 入力は位置によって位置を変えることができる。 各位置のニューロンがグループを形成する x = [ x(cid:62 ) N ] ( cid:62 ) 同様に、もう1つの接続重み行列は block1 x(cid:62) で定式化できる。 sparse form (複数形 sparse forms) 本質的には 1 × 1 の畳み込み Wp ∈ RC×C である。 : 0 0
0.80
2 . . . x(cid:62) 2 . . . x(cid:62) 0.85
W(cid:48) W(Ccid:48) 0.81
= Wp 0 0 Wp ... ... = wp 0 0 wp ... 0.87
0 0 ··· 0 ··· 0 ... ... ... ··· 0 Wp 0 0 ··· 0 ··· 0 ... ... ... ··· 0 Wp 0.75
The forms of block-sparsity are studied in interleaved group convolutions [68] without sharing the weights across groups. ブロックスパーシティの形式は群をまたいで重みを共有せずにインターリーブ群畳み込み [68] で研究されている。 0.58
Sep. MLP can also be regarded as using Kronecker product to approximate the connection matrix, MLP を Kronecker 積を使って接続行列を近似することもできる。 0.61
Wx = vec(A mat(x)B). Wx = vec(A mat(x)B)。 0.82
(12) c ⊗ Wp. (12) wp である。 0.74
and ⊗ is the Kronecker product operator. Kronecker は Kronecker の積作用素である。 0.52
mat(x) reshapes the Here, W = B(cid:62) ⊗ A = W(cid:62) vector x in a 2D matrix form, while vec(x) reshapes the 2D matrix into a vector form. mat(x) はHere, W = B(cid:62) > A = W(cid:62) ベクトル x を 2D 行列形式とし、vec(x) は 2D 行列をベクトル形式とする。 0.79
In Sep. MLP, the 2D matrix, mat(x) ∈ RC×N , is organized so that each row corresponds to one channel and each column corresponds to one spatial position. sep. mlp において、2次元行列 mat(x) ∈ rc×n は、各列が1つのチャネルに対応し、各列が1つの空間位置に対応するように構成される。 0.70
Vision Transformer (ViT). ビジョントランスフォーマー(ViT)。 0.68
The matrix form is similar to Sep. MLP. 行列形式はSep. MLPと似ている。 0.71
The difference is that the matrix Wc is predicted from each image instance. 違いは、マトリクスwcが各画像インスタンスから予測されることである。 0.69
The weight prediction manner in ViT has a benefit: handle an arbitrary number of input neurons. ViTの重み予測方法には、任意の数の入力ニューロンを扱うという利点がある。 0.68
Depth-wise separable convolution. 深く分離可能な畳み込み。 0.44
There are two basic components: depth-wise convolution, and 1 × 1 convolution that is the same as channel-mixing MLP in Sep. MLP. ディープワイド・コンボリューション(deep-wise convolution)と1×1コンボリューション(1×1 convolution)は、Sep. MLPのチャネル混合MLPと同じである。 0.63
Depth-wise convolution can Depth-wise convolution can 0.78
be written in the matrix form: be written in the matrix form: 0.70
 =   =  0.85
y1 y2 ... yC y1 y2 ... yC 0.65
W11 0 0 W22 ... ... W11 0 0 W22 ... 0.82
0 0 0 0 ··· ··· ... ··· WCC 0 0 0 0 ······...···WCC 0.74
...  ...  0.72
 x1 x2 ... xC  x1 x2 ... xC 0.75
 , where the form of Wcc is the same as Equation 8.  , ここで wcc の形は式 8 と同じである。 0.80
Local ViT. In the non-overlapping window partition case, local ViT simply repeats ViT over each window separately with the linear projections, applied to keys, values, and queries, shared across windows. 地元のViT。 オーバーラップしないウィンドウ分割の場合、ローカルViTは、ウィンドウ間で共有されるキー、値、クエリに適用される線形プロジェクションで、各ウィンドウ上でViTを別々に繰り返す。 0.74
In the overlapping case, the form is a little complicated, but the intuition is the same. 重なり合う場合、形式は少し複雑だが、直観は同じである。 0.53
In the extreme case, the partition is the same as convolution, and the form is as the following: 極端な場合、分割は畳み込みと同じであり、形式は次のようになる。 0.58
(10) (11) (13) (10) (11) (13) 0.85
(14)  (14)  0.85
  ,   , 0.85
 .  =  .  = 0.85
    0.85
y1 y2 ... yC y1 y2 ... yC 0.65
Wd 0 0 Wd ... ... Wd 0 0 Wd ... 0.94
0 0 16  0 0 16  0.85
 x1 x2 ... xC  x1 x2 ... xC 0.75
 , 0 0  , 0 0 0.85
··· ··· ... ... ··· Wd ··· ··· ... ... ··· Wd 0.48
英語(論文から抽出)日本語訳スコア
where the dynamic weight matrix Wd is like the form below: 動的重み行列 wd は以下の形式に似ています 0.74
 a12 a21 ... aN 3  a12 a21 ... AN 3 0.72
Wd = a13 0 a22 a23 ... ... Wd= a13 0 a22 a23... 0.75
0 0 0 ··· ··· 0 ... 0 0 0 ··· ··· 0 ... 0.76
0 0 a11 0 ... ... 0 ··· aN 1 aN 2 0 0 a110。 ...0····aN 1 aN 2 0.70
...  . ...  . 0.72
(15) Low-rank MLP. (15) 低ランクMLP。 0.84
Low-rank MLP approximates the connection weight matrix W ∈ RDo×Di in Equation 7 using the product of two low-rank matrix: 低ランク MLP は2つの低ランク行列の積を用いて、方程式7の連結重み行列 W ∈ RDo×Di を近似する。 0.61
W ← WDorWrDi, WDorWrDi, WDorWrDi 0.36
(16) (17) where r is a number smaller than Di and Do Pyramid. (16) (17) r は Di と Do Pyramid より小さい数である。 0.82
The downsampling process in the pyramid networks can be regarded as spatial low rank: W(∈ RN C×N C) → W(cid:48)(∈ RN(cid:48)C×N(cid:48)C), where N(cid:48) is equal to N 4 in the case that the 2. ピラミッドネットワークにおけるダウンサンプリング過程は、空間的に低いランクと見なすことができる: w(html rn c×n c) → w(cid:48)(ftp rn(cid:48)c×n(cid:48)c) ここで n(cid:48) は 2 の場合 n 4 に等しい。 0.78
If the numbers of input and output channels are different, it becomes resolution is reduced by 1 W(∈ RN C(cid:48)×N C) → W(cid:48)(∈ RN(cid:48)C(cid:48)×N(cid:48)C). 入力チャネルと出力チャネルの数が異なる場合、解像度は 1 w(ajax rn c(cid:48)×n c) → w(cid:48)(ajax rn(cid:48)c(cid:48)×n(cid:48)c) となる。 0.80
Multi-scale parallel convolution. マルチスケール並列畳み込み。 0.80
Multi-scale parallel convolution used in HRNet [54, 45] can also be regarded as spatial low rank. HRNet[54, 45]で使用されるマルチスケール並列畳み込みも空間的低ランクと見なすことができる。 0.73
Consider the case with four scales, multi-scale parallel convolution can be formed as as the following, 4つのスケールの場合、マルチスケールの並列畳み込みを次のように形成することができる。 0.75
 W1 ∈ RN C1 W2 ∈ RN C2 W3 ∈ RN C3 W4 ∈ RN C4  W1 ∈ RN C1 W2 ∈ RN C2 W3 ∈ RN C3 W4 ∈ RN C4 0.82
 →   →  0.85
W →  , W →  , 0.85
W(cid:48) W(cid:48) W(cid:48) W(cid:48) W(cid:48) W(cid:48) W(cid:48) W(cid:48) 0.80
1 ∈ RN C1 2 ∈ R N 3 ∈ R N 4 ∈ R N 1 ∈ RN C1 2 ∈ R N 3 ∈ R N 4 ∈ R N 0.90
4 C2 16 C3 64 C4 4C2 16C3 64 C4 0.83
where C1, C2, C3, and C4 are the numbers of the channels in four resolutions. c1, c2, c3, c4は4つの解像度のチャンネルの数である。 0.80
B Local Attention vs Convolution: Equivalence to Translation B ローカルアテンション対畳み込み:翻訳の等価性 0.70
In local attention, the equivalence to translation depends if the keys/values are changed, i.e., if the query lies in the same window, when the feature map is translated. ローカルな注意では、翻訳の等価性は、キー/値が変更された場合、すなわち、クエリが同じウィンドウにある場合、機能マップが変換された場合に依存する。 0.72
In the case of sparsely-sampled window, e g , [24, 35, 41, 52], (for efficient implementation), local attention is equivalent to blockwise translation, i.e., the translation is a block with the size same as the window size Kw × Kh or multiple blocks. sparsely-sampled window, e g , [24, 35, 41, 52] の場合、(効率的な実装のために)局所的な注意はブロックワイズ変換と等価であり、すなわち、翻訳はウィンドウサイズ Kw × Kh または複数のブロックと同じ大きさのブロックである。 0.89
In the case that the windows are densely sampled (e g , [71]), local attention is equivalent to translation. 窓が濃密にサンプリングされている場合(例:[71])は、局所的な注意は翻訳と等価である。 0.74
Depth-wise convolution is similar to local attention in equivalence to translation. 深さ方向の畳み込みは、翻訳の等価性において局所的な注意と似ている。 0.45
Depth-wise convolution is equivalence to any translation and not limited in block translation in local attention. 深さ方向の畳み込みは任意の翻訳と等価であり、局所注意でブロック変換に制限はない。 0.62
This is because of weight sharing across spatial positions9 [16]. これは空間的位置9[16]をまたいだ重量共有のためである。 0.67
C Architecture Details Cアーキテクチャの詳細 0.78
Overall structures. Following local vision transformer, Swin Transformer [35], we build two depthwise convolution-based networks, namely DW-Conv.-T and DW-Conv.-B. 全体構造。 そこで我々はDW-Conv.-TとDW-Conv.-Bという2つの奥行き畳み込み型ネットワークを構築した。 0.67
The corresponding dynamic versions are D-DW-Conv.-T and D-DW-Conv.-B. 対応する動的バージョンはD-DW-Conv.-TとD-DW-Conv.-Bである。 0.45
The depth-wise convolution-based networks follow the overall structure of Swin Transformer. 奥行き畳み込みに基づくネットワークは、スウィントランスの全体構造に従う。 0.67
We replace local self attention by depth-wise convolution with the same window size. 局所的な自己注意を同じウィンドウサイズで深さ方向の畳み込みに置き換える。 0.70
We use batch normalization [29] and ReLU [39] instead of layer normalization [2] in the convolution blocks. 畳み込みブロックの層正規化 [2] の代わりにバッチ正規化 [29] と relu [39] を用いる。 0.74
Table 7 shows the architecture details of Swin Transformer and depth-wise convolution-based networks for the tiny model. 表7は、小さなモデルのためのSwin TransformerとDeep-wise Convolutionベースのネットワークのアーキテクチャの詳細を示しています。
訳抜け防止モード: 表7:スウィントランスのアーキテクチャの詳細と深さ -賢明な畳み込み- 小さなモデルのためのネットワーク。
0.69
Normalizations are performed within the residual block, same as Swin Transformer. スウィントランスと同様に、残差ブロック内で正規化が行われる。 0.69
The base model is similarly built by following Swin Transformer to change the number of channels and the depth of the third stage. ベースモデルは同様に、チャンネルの数と第3ステージの深さを変えるためにSwin Transformerに従うことで構築される。 0.78
9The boundary positions are often taken into no consideration when talking about equivalence to translation. 9 翻訳の等価性については,境界位置が考慮されないことが多い。 0.74
17 17 0.85
英語(論文から抽出)日本語訳スコア
Table 7: Architectures details of Swin Transformer and depth-wise convolution-based network (DW Conv.) 表7:Swin TransformerとDeep-wise Convolution-based Network(DW Conv.)のアーキテクチャの詳細 0.84
for the tiny model. 小さなモデルのためです 0.69
The architectures for the base model can be easily obtained. ベースモデルのアーキテクチャは容易に得ることができる。 0.73
downsp. rate (output size) ダウンスプ rate (複数形 rates) 0.44
stage 1 4× (56×56) ステージ1 4× (56×56) 0.79
stage 2 8× (28×28) ステージ2 8× (28×28) 0.79
stage 3 16× (14×14) ステージ3 16× (14×14) 0.76
stage 4 32× (7×7) ステージ4 32× (7×7) 0.76
stage 4 1×1     ステージ4 1×1     0.74
Swin concat 4×4, linear 96-d, LN 水泳 concat 4×4, linear 96-d, LN 0.50
LN, linear 96x3-d local sa. LN, 線状96x3-dローカルsa。 0.70
7×7, head 3 linear 96-d 7×7,頭部3。 linear 96‐d 0.68
LN, linear 384-d GELU, linear 96-d LN, 線形384-d GELU, 線形96-d 0.74
LN, linear 192x3-d local sa. LN, 線形 192x3-d 局所sa。 0.69
7×7, head 6 linear 192-d 7×7,頭部6。 線形192-d 0.64
LN, linear 768-d LN, 線形768-d 0.77
concat 2×2, linear 192-d , LN concat 2×2, linear 192-d , LN 0.78
GELU, linear 192-d GELU, 線形192-d 0.77
concat 2×2, linear 384-d , LN concat 2×2, linear 384-d , LN 0.78
concat 2×2, linear 768-d , LN concat 2×2, linear 768-d , LN 0.78
LN, linear 384x3-d local sa. LN, 線形384x3-d局所サ。 0.68
7×7, head 12 linear 384-d 7×7,頭部12。 線形384-d 0.63
LN, linear 1536-d GELU, linear 384-d LN, 線形 1536-d GELU, 線形 384-d 0.76
LN, linear 768x3-d local sa. LN, 線形 768x3-d local sa。 0.72
7×7, head 24 linear 768-d 7×7,頭部24。 線形 768-d 0.65
LN, linear 3072-d GELU, linear 768-d LN, AvgPool. LN, 線形3072-d GELU, 線形768-d LN, AvgPool。 0.77
1×1 linear classifier  × 2  × 2  × 6  × 2 1×1線形分類器  × 2  × 2  × 6  × 2 0.73
        0.85
DW Conv. concat 4×4, linear 96-d, LN linear 96-d, BN, ReLU DW Conv concat 4×4, linear 96-d, LN linear 96-d, BN, ReLU 0.71
depthwise conv. 7×7, BN, ReLU 奥行きのconv。 7×7,BN,ReLU 0.62
linear 96-d, BN, ReLU 線状96-d,BN,ReLU 0.82
BN, linear 384-d GELU, linear 96-d BN, 線形384-d GELU, 線形96-d 0.74
concat 2×2, linear 192-d , LN linear 192-d, BN, ReLU concat 2×2, linear 192-d , LN linear 192-d, BN, ReLU 0.82
depthwise conv. 7×7, BN, ReLU 奥行きのconv。 7×7,BN,ReLU 0.62
linear 192-d, BN, ReLU 線形192-d、BN、ReLU 0.78
BN, linear 768-d BN 線形 768-d 0.91
GELU, linear 192-d GELU, 線形192-d 0.77
concat 2×2, linear 384-d , LN linear 384-d, BN, ReLU concat 2×2, linear 384-d , LN linear 384-d, BN, ReLU 0.82
depthwise conv. 7×7, BN, ReLU 奥行きのconv。 7×7,BN,ReLU 0.62
linear 384-d, BN, ReLU 線形384-d,BN,ReLU 0.80
BN, linear 1536-d GELU, linear 384-d BN, 線形 1536-d GELU, 線形 384-d 0.76
concat 2×2, linear 768-d , LN linear 768-d, BN, ReLU concat 2×2, linear 768-d , LN linear 768-d, BN, ReLU 0.82
depthwise conv. 7×7, BN, ReLU 奥行きのconv。 7×7,BN,ReLU 0.62
linear 768-d, BN, ReLU 線形 768-d, BN, ReLU 0.87
BN, linear 3072-d GELU, linear 768-d LN, AvgPool. BN, 線形3072-d GELU, 線形768-d LN, AvgPool。 0.75
1×1 linear classifier  × 2  × 2  × 6  × 2 1×1線形分類器  × 2  × 2  × 6  × 2 0.73
Dynamic depth-wise convolution. 動的深さ方向畳み込み。 0.70
Dynamic depth-wise convolution generates the connection weights according to the instance. 動的深度の畳み込みは、インスタンスに応じて接続重みを生成する。 0.69
We conduct the global average pooling operation to get a vector, and perform two linear projections: the first one reduces the dimension by 1/4 and then generate the kernel weights. 我々は、ベクトルを得るためにグローバル平均プーリング演算を行い、2つの線形射影を行う: 1つは次元を1/4に減らし、次にカーネル重みを生成する。 0.77
Unlike SENet [26], we currently do not use the non-linear activation function (Sigmoid) for generating the weights. senet [26]とは異なり、現在、重みを生成するのに非線形活性化関数(sigmoid)を使用しない。 0.74
D Setting Details ImageNet pretraining. D 設定の詳細 ImageNet事前トレーニング。 0.79
We use the identical training setting with Swin Transformer in ImageNet pretraining for fair comparison. 公平な比較のために、ImageNetプリトレーニングでSwin Transformerと同一のトレーニング設定を使用する。 0.66
The default input size is 224× 224. デフォルトの入力サイズは224×224である。 0.75
The AdamW optimizer [36], with the initial learning rate 0.001 and the weight decay 0.05, is used for 300 epochs. このAdamWオプティマイザ[36]は、初期学習率0.001と重量減衰0.05で300エポックに使用される。 0.76
The learning rate is scheduled by a cosine decay schema and warm-up with linear schema for the first 20 epochs. 学習速度は、コサイン減衰スキーマと、最初の20エポックの線形スキーマによるウォームアップによってスケジュールされる。 0.66
We train the model on 8 GPUs with the total batch size 1024. 8gpuでモデルをトレーニングし、合計バッチサイズは1024です。 0.63
The augmentation and regularization strategies are same as Swin Transformer, which includes RandAugment [11], Mixup [65], CutMix [64], random erasing [72] and stochastic depth [28]. 拡張戦略と正規化戦略は、RandAugment [11], Mixup [65], CutMix [64], random erasing [72], stochastic depth [28]を含むSwin Transformerと同じである。 0.64
The stochastic depth rate is employed as 0.2 and 0.5 for the tiny and base models, respectively, the same as Swin Transformer. この確率深度は, 小型モデルとベースモデルでは0.2および0.5として, Swin Transformerと同じである。 0.77
COCO object detection. COCOオブジェクト検出。 0.75
We follow Swin Transformer to adopt Cascade Mask R-CNN [4] for comparing backbones. バックボーンの比較にCascade Mask R-CNN[4]を採用するために、Swin Transformerに従う。 0.63
We use the training and test settings from Swin Transformer: multi-scale Swin Transformerのトレーニングとテスト設定を使う:マルチスケール 0.74
18 18 0.85
英語(論文から抽出)日本語訳スコア
82.5 83.7 84.1 82.5 83.7 84.1 0.47
#param. FLOPs #param。 FLOP 0.80
2123.7 623.0 452.8 2123.7 623.0 452.8 0.47
1128.3 652.0 456.7 1128.3 652.0 456.7 0.47
3.8G 7.5G 11.1G 3.8G7.5G 11.1G 0.35
4.1G 7.9G 11.6G 4.1G 7.9G 11.6G 0.36
4.0G 8.3G 16.1G 4.0G 8.3G 16.1G 0.36
2242 2242 2242 2242 2242 2242 0.85
2242 2242 2242 2242 2242 2242 0.85
28M 48M 65M 28M 48M 65M 0.67
26M 45M 60M 26M 45M 60M 0.67
21M 41M 78M 21M 41M 78M 0.67
75.4 76.7 77.3 75.4 76.7 77.3 0.47
76.2 77.4 78.3 76.2 77.4 78.3 0.47
throughput (img. スループット(img)。 0.74
/ s) top-1 acc. /s) トップ1acc。 0.73
real acc. Table 8: ImageNet classification comparison for ResNet, HRNet, Mixer and ResMLP and gMLP, ViT and DeiT, Swin (Swin Transformer), DW-Conv. 本物のaccだ 表8: ImageNet classification comparison for ResNet, HRNet, Mixer and ResMLP and gMLP, ViT and DeiT, Swin (Swin Transformer), DW-Conv. 0.66
(depth-wise convolution), and D-DW-Conv. (depth-wise convolution)、D-DW-Conv。 0.62
(dynamic depth-wise convolution). (ダイナミックディープワイド・コンボリューション)。 0.54
† means that ResNet is built by using two 3 × 3 convolutions to form the residual units. つまり、resnet は 2 つの 3 × 3 の畳み込みを使って残基を形成することを意味する。 0.59
img. size method Convolution: local connection 2242 ResNet-38 † [54] ResNet-72 † [54] 2242 ResNet-106 † [54] 2242 Bottleneck: convolution with low rank ResNet-50 [21] ResNet-101 [21] ResNet-152 [21] Pyramid: convolution with pyramid (spatial low rank) features. img所属。 size method convolution: local connection 2242 resnet-38 ] [54] resnet-72 ] [54] 2242 resnet-106 ] [54] 2242 bottleneck: convolution with low rank resnet-50 [21] resnet-101 [21] resnet-152 [21] pyramid: convolution with pyramid (spatial low rank) features (spatial low rank) 0.75
76.8 HRNet-W18 [54] HRNet-W32 [54] 78.5 79.3 HRNet-W48 [54] Channel and spatial separable MLP, spatial separable MLP = point-wise 1 × 1 convolution Mixer-B/16 [49] 76.4 Mixer-L/16 [49] 71.8 ResMLP-12 [50] 76.6 79.4 ResMLP-24 [50] 79.7 ResMLP-36 [50] gMLP-Ti [34] 72.0 79.4 gMLP-S [34] gMLP-B [34] 81.6 Global attention: dynamic channel separable MLP + spatial separable MLP ViT-B/16 [14] ViT-L/16 [14] DeiT-S [51] DeiT-B [51] DeiT-B [51] Pyramid attention: perform attention with spatial low rank PVT-S [55] PVT-M [55] PVT-L [55] Local attention: perform attention in local small windows Swin-T [35] 4.5G 15.4G Swin-B [35] Depth-wise convolution + point-wise 1 × 1 convolution DW-Conv.-T 3.8G 12.9G DW-Conv.-B 3.8G D-DW-Conv.-T D-DW-Conv.-B 13.0G 76.8 HRNet-W18 [54] HRNet-W32 [54] 78.5 79.3 HRNet-W48 [54] Channel and spatial separable MLP, spatial separable MLP = point-wise 1 × 1 convolution Mixer-B/16 [49] 76.4 Mixer-L/16 [49] 71.8 ResMLP-12 [50] 76.6 79.4 ResMLP-24 [50] 79.7 ResMLP-36 [50] gMLP-Ti [34] 72.0 79.4 gMLP-S [34] gMLP-B [34] 81.6 Global attention: dynamic channel separable MLP + spatial separable MLP ViT-B/16 [14] ViT-L/16 [14] DeiT-S [51] DeiT-B [51] DeiT-B [51] Pyramid attention: perform attention with spatial low rank PVT-S [55] PVT-M [55] PVT-L [55] Local attention: perform attention in local small windows Swin-T [35] 4.5G 15.4G Swin-B [35] Depth-wise convolution + point-wise 1 × 1 convolution DW-Conv.-T 3.8G 12.9G DW-Conv.-B 3.8G D-DW-Conv.-T D-DW-Conv.-B 13.0G 0.67
55.4G 86M 307M 190.7G 4.6G 22M 17.5G 86M 86M 55.4G 55.4G 86M 307M 190.7G 4.6G 22M 17.5G 86M 55.4G 0.44
3.0G 6.0G 8.9G 1.4G 4.5G 15.8G 3.0G 6.0G 8.9G 1.4G 15.8G 0.38
46M 189M 15M 30M 45M 6M 20M 73M 46M 189M 15M 30M 45M 6M 20M 73M 0.62
2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 0.85
83.4 26.5 947.3 298.2 82.7 83.4 26.5 947.3 298.2 82.7 0.44
3842 3842 2242 2242 3842 3842 3842 2242 2242 3842 0.85
79.8 81.2 81.7 79.8 81.2 81.7 0.47
81.3 83.3 86.6 87.9 81.3 83.3 86.6 87.9 0.50
86.8 87.9 87.3 87.9 86.8 87.9 87.3 87.9 0.45
24M 74M 51M 162M 24M74M51M162M 0.56
25M 44M 61M 28M 88M 25M44M61M 28M 88M 0.64
928.7 327.6 897.0 322.4 928.7 327.6 897.0 322.4 0.45
82.4 77.1 83.3 85.3 85.6 82.4 77.1 83.3 85.3 85.6 0.44
2242 2242 2242 2242 2242 2242 0.85
2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 2242 0.85
- - - - 77.9 76.5 79.8 81.8 83.1 - - - - 77.9 76.5 79.8 81.8 83.1 0.77
83.6 82.2 85.7 86.7 87.7 83.6 82.2 85.7 86.7 87.7 0.44
- - - 3.8G 6.7G 9.8G - - - 3.8G 6.7G 9.8G 0.73
713.5 263.0 713.5 263.0 0.50
81.3 83.2 81.9 83.2 81.3 83.2 81.9 83.2 0.45
training - resizing the input such that the shorter side is between 480 and 800 and the longer side is at most 1333; AdamW optimizer with the initial learning rate 0.0001; weight decay - 0.05; batch size16; and epochs - 36. トレーニング - 短い側が480から800、長い側が1333、初期学習率0.0001のadamwオプティマイザが0.005、重量減少が0.005、バッチサイズ16、エポックが36であるように入力を再サイズする。
訳抜け防止モード: トレーニング - このような入力をリサイズする 短辺は480から800であり、長辺は1333である ;AdamW Optimizationr with the initial learning rate 0.0001 ; weight decay - 0.05 ; batch size 16 ; そしてエポックス - 36。
0.76
ADE semantic segmentation. ADE セマンティックセグメンテーション。 0.58
Following Swin Transformer, we use UPerNet [58] as the segmentation framework. Swin Transformerに続いて、セグメンテーションフレームワークとしてUPerNet [58]を使用します。 0.68
We use the same setting as the Swin Transformer: the AdamW optimizer with initial learning rate 0.00006; weight decay 0.01; linear learning rate decay; 160,000 iterations with warm-up for 1500 iterations; 8 GPUs with mini-batch 2 per GPU. 初期学習率0.00006のAdamWオプティマイザ、線形学習率0.01のAdamWオプティマイザ、1500回のウォームアップで160,000のイテレーション、GPU毎にミニバッチ2の8つのGPUを使用する。 0.64
We use the same data augmentation as Swin Transformer based on MMSegmentation [9]. MMSegmentation [9]に基づくSwin Transformerと同じデータ拡張を使用します。 0.70
The experimental results are reported as single scale testing. 実験結果は単スケール試験として報告されている。 0.68
Static version of Swin Transformer. Swin Transformerの静的バージョン。 0.71
We remove the linear projections applied to keys and queries, accordingly dot production and softmax normalization. キーとクエリに適用される線形射影を取り除き,ドット生成とソフトマックス正規化を行う。 0.70
The connection weights (corresponding to 接続重量(それに対応する) 0.79
19 19 0.85
英語(論文から抽出)日本語訳スコア
s s o l g n i n i a r T s s o l g n i n i a r T 0.85
s s o l g n i n i a r T s s o l g n i n i a r T 0.85
Epoch (a) epoch (複数形 epochs) 0.72
Epoch (c) epoch (複数形 epochs) 0.65
y c a r u c c A n o i t a d i l a V y c a r u c A n o i t a d i l a V 0.80
y c a r u c c A n o i t a d i l a V y c a r u c A n o i t a d i l a V 0.80
Epoch (b) epoch (複数形 epochs) 0.65
Epoch (d) epoch (複数形 epochs) 0.70
Figure 5: Training and validation curves for ImageNet classification. 図5: ImageNet分類のためのトレーニングと検証曲線。 0.89
(a) and (b) are the training loss and validation top-1 accuracy curves for the tiny model, and (c) and (d) are for the base model. (a)及び(b)は、小モデルにおける訓練損失及び検証トップ1精度曲線であり、(c)及び(d)はベースモデルである。 0.83
attention weights in the dynamic version) are set as static model parameters which are learnt during the training and shared for all the images. 動的バージョンの注意重み)は、トレーニング中に学習され、すべての画像で共有される静的モデルパラメータとして設定されます。 0.80
Retraining on 384 × 384. 384×384のリトレーニング。 0.70
We retrain the depth-wise convolution-based network on the ImageNet dataset with 384 × 384 input images from the model trained with 224 × 224 images. 224 × 224 画像で訓練したモデルから 384 × 384 の入力画像を用いて,ImageNet データセット上の深度ワイド畳み込みに基づくネットワークを再学習する。 0.76
We use learning rate 10−5, weight decay 10−8 and stochastic depth ratio 0.1 for 30 epochs for both 7× 7 and 12× 12 windows. 学習速度10~5, 重量減衰10~8, 確率深度0.1を7×7, 12×12ウィンドウで用いた。 0.67
E Additional Experiments and Analysis e. 追加実験と分析 0.91
More results on ImageNet classification. imagenet分類のさらなる結果。 0.61
We give more experimental results with different sparse connection strategies, as shown in Table 8. 表8に示すように、異なるスパース接続戦略によるより実験的な結果を与える。 0.78
These results also verify that locality-based sparsity pattern (adopted in depth-wise convolution and local attention) besides sparsity between channels/spatial positions still facilitates the network training for ImageNet-1K. これらの結果は、チャネル/空間位置間の間隔以外の局所性に基づく空間パターン(奥行きの畳み込みと局所的な注意)が、ImageNet-1Kのネットワークトレーニングを促進することも確認した。 0.54
Training curves on ImageNet, COCO and ADE. ImageNet、COCO、ADEのトレーニング曲線。 0.69
Figures 5, 6 and 7 show the training and validation curves for Swin Transformer and depth-wise convolution-based methods on ImageNet classification, COCO object detection and ADE20K semantic segmentation. 図5、6、7は、画像ネット分類、COCOオブジェクト検出、ADE20Kセマンティックセグメンテーションに関するSwin TransformerとDeep-wise Convolution-basedメソッドのトレーニングと検証曲線を示している。 0.66
The curves for ImageNet classification and ADE20K semantic segmentation are normal, but the curves for object detection shown in Figure 6 are not normal: depth-wise convolutions get lower training errors, but lower validation scores. ImageNet分類とADE20Kセマンティックセグメンテーションの曲線は正規であるが、図6に示すオブジェクト検出の曲線は正規ではない。
訳抜け防止モード: ImageNet分類とADE20Kセマンティックセグメンテーションの曲線は正規である。 しかし図6に示すオブジェクト検出の曲線は正常ではない。 深さ - 賢い畳み込みはトレーニングエラーを少なくするが、検証スコアは低い。
0.70
The reason is not clear, and might be the training setting (same as Swin Transformer on COCO object detection) or other issues. 理由は明らかではなく、トレーニング設定(COCOオブジェクト検出のSwin Transformerと同じ)や他の問題かもしれません。 0.72
Cooperating with different normalization functions. 異なる正規化関数と協調する。 0.67
Transformers usually use the layer normalization to stabilize the training, while convolutional architectures adopt batch normalization. トランスフォーマーは通常、トレーニングを安定化するためにレイヤー正規化を使用し、畳み込みアーキテクチャはバッチ正規化を採用する。
訳抜け防止モード: トランスフォーマーは通常、層正規化を用いる 訓練を安定させるために 畳み込みアーキテクチャはバッチ正規化を採用する。
0.62
We verify different combinations of backbones (Swin and DW Conv.) バックボーンの異なる組み合わせ(SwinとDW Conv)を検証する。 0.72
and normalization functions. The popular used layer normalization (LN), batch normalization (BN), and the dynamic version of batch normalization - centering calibrated batch normalization [15] (CC. 正常化機能です 一般的な使用済みレイヤ正規化(LN)、バッチ正規化(BN)、バッチ正規化の動的バージョン - キャリブレーションされたバッチ正規化 [15] (CC) を中心に。 0.63
BN) are verified in the experiments. BN) が実験で確認された。 0.75
Table 9 shows the results on ImageNet classification. 表9はImageNet分類の結果を示しています。 0.71
20 03060901201501802102 402703003.04.05.06.0 7.0Swin-TDW-Conv.-TD -DW-Conv.-T050100150 20025030060657075808 5Swin-TDW-Conv.-TD-D W-Conv.-T03060901201 501802102402703003.0 4.05.06.07.0Swin-BDW -Conv.-BD-DW-Conv.-B 05010015020025030060 6570758085Swin-BDW-C onv.-BD-DW-Conv.-B 20 03060901201802102402 703003.04.05.06.07.0 7Swin-TDW-Conv.-TD-D W-Conv.-T05015020025 060757585Swin-TDW-Co nv.-TD-DW-Conv.-T060 90120180210240270300 3.04.05.07.07Swin-BD -DW-Conv.-BD-DW-Conv .-B05015050506065757 585Swin-BDW-Conv.-BD -DW-Conv.-BDW-Conv.- BDW-Conv.-BDW 0.44
英語(論文から抽出)日本語訳スコア
s s o l g n i n i a r T s s o l g n i n i a r t 0.79
s s o l g n i n i a r T s s o l g n i n i a r T 0.85
Epoch (a) epoch (複数形 epochs) 0.72
Epoch (c) epoch (複数形 epochs) 0.65
P A m x o b P A m x o b 0.85
n o i t a d i l a V n o i t a d i l a V 0.85
P A m x o b n o i t a d i l a V P A m x o b n o i t a d i l a V 0.85
Epoch (b) epoch (複数形 epochs) 0.65
Epoch (d) epoch (複数形 epochs) 0.70
Figure 6: Training and validation curves for COCO object detection. 図6:COCOオブジェクト検出のためのトレーニングと検証曲線。 0.85
(a) and (b) are the training loss and validation box AP curves for the tiny model, and (c) and (d) are for the base model. a)と(b)は、小モデルのトレーニング損失と検証ボックスAP曲線であり、(c)と(d)はベースモデルのトレーニング損失と検証ボックスAP曲線である。 0.83
It is not expected that depth-wise convolution-based models have lower training errors, but lower detection scores. 深度的な畳み込みに基づくモデルではトレーニングエラーは少ないが検出スコアは低い。 0.64
s s o l g n i n i a r T s s o l g n i n i a r t 0.79
s s o l g n i n i a r T s s o l g n i n i a r T 0.85
Iteration (a) イテレーション (a) 0.73
Iteration (c) イテレーション (c) 0.73
U o I m n o i t a d i l a V U o I m n o i t a d i l a V 0.85
U o I m n o i t a d i l a V U o I m n o i t a d i l a V 0.85
Iteration (b) イテレーション (b) 0.73
Iteration (d) イテレーション (d) 0.73
Figure 7: Training and validation curves for ADE semantic segmentation. 図7:ADEセマンティックセグメンテーションのトレーニングと検証の曲線。 0.69
(a) and (b) are the training loss and validation curves mIoU for the tiny model, and (c) and (d) are for the base model. (a)および(b)は、小モデルに対する訓練損失および検証曲線miouであり、(c)および(d)はベースモデルである。 0.76
21 048121620242832361.0 0.80.92.0Swin-TDW-Co nv.-TD-DW-Conv.-T048 121620242832360.380. 400.420.440.460.480. 500.52Swin-TDW-Conv. -TD-DW-Conv.-T048121 620242832361.00.80.9 2.0Swin-BDW-Conv.-BD -DW-Conv.-B048121620 242832360.380.400.42 0.440.460.480.500.52 Swin-BDW-Conv.-BD-DW -Conv.-B0k16k32k48k6 4k80k96k112k128k144k 160k1.00.30.40.50.60 .70.80.9Swin-TDW-Con v.-TD-DW-Conv.-T16k3 2k48k64k80k96k112k12 8k144k160k0.360.380. 400.420.440.460.48Sw in-TDW-Conv.-TD-DW-C onv.-T0k16k32k48k64k 80k96k112k128k144k16 0k1.00.30.40.50.60.7 0.80.9Swin-BDW-Conv. -BD-DW-Conv.-B16k32k 48k64k80k96k112k128k 144k160k0.430.440.45 0.460.470.480.49Swin -BDW-Conv.-BD-DW-Con v.-B 21 048121620242832361.0 0.80.92.0Swin-TDW-Co nv.-TD-DW-Conv.-T048 121620242832360.380. 400.420.440.460.480. 500.52Swin-TDW-Conv. -TD-DW-Conv.-T048121 620242832361.00.80.9 2.0Swin-BDW-Conv.-BD -DW-Conv.-B048121620 242832360.380.400.42 0.440.460.480.500.52 Swin-BDW-Conv.-BD-DW -Conv.-B0k16k32k48k6 4k80k96k112k128k144k 160k1.00.30.40.50.60 .70.80.9Swin-TDW-Con v.-TD-DW-Conv.-T16k3 2k48k64k80k96k112k12 8k144k160k0.360.380. 400.420.440.460.48Sw in-TDW-Conv.-TD-DW-C onv.-T0k16k32k48k64k 80k96k112k128k144k16 0k1.00.30.40.50.60.7 0.80.9Swin-BDW-Conv. -BD-DW-Conv.-B16k32k 48k64k80k96k112k128k 144k160k0.430.440.45 0.460.470.480.49Swin -BDW-Conv.-BD-DW-Con v.-B 0.43
英語(論文から抽出)日本語訳スコア
Table 9: Exploring normalization schemes of Swin Transformer and depth-wise convolution based networks (DW Conv.) 表9:Swin TransformerとDeep-wise Convolution Based Network(DW Conv.)の正規化スキームの探索 0.86
for the tiny model. 小さなモデルのためです 0.69
The results are reported on the ImageNet top-1 accuracy. 結果はImageNet Top-1の精度で報告されている。 0.65
Layer Norm. Batch Norm. レイヤーノーム。 バッチ規範。 0.51
Centering calibrated Batch Norm. センターキャリブレーションのバッチノーム。 0.56
Top-1 Acc. Swin Swin Swin DW Conv. トップ1acc。 Swin Swin DW Conv 0.64
DW Conv. DW Conv. DW Conv DW Conv 0.60
            0.85
81.3 80.9 81.2 81.2 81.3 81.7 81.3 80.9 81.2 81.2 81.3 81.7 0.43
Table 10: Combination of weight sharing across channels and positions. 表10: チャネルと位置をまたいだ重量共有の組み合わせ。 0.82
The results are reported on the ImageNet top-1 accuracy. 結果はImageNet Top-1の精度で報告されている。 0.65
sharing across channels Swin チャネル間での共有 水泳 0.45
DW Conv.     DW Conv     0.72
sharing across positions Acc. 80.3 80.3 81.3 81.1 位置を共有します。 80.3 80.3 81.3 81.1 0.53
    Combining weight sharing across positions and channels.     位置とチャネル間での重量共有。 0.77
Depth-wise convolution shares weights across positions, while local transformer shares weights across channels or within each group of channels. 深さ方向の畳み込みは位置間で重みを共有し、ローカルトランスフォーマーはチャネル全体または各チャネルグループ内で重みを共有します。 0.63
In static Swin Transformer, we study a further variant, the weight parameters are shared across windows. 静的スウィントランスでは、ウインドウ間で重みパラメータが共有される別の変種について検討する。
訳抜け防止モード: static Swin Transformer で。 さらなる変種について研究し ウェイトパラメータはウィンドウ間で共有されます
0.72
In depth-wise convolution-based networks, we additionally share the weights across channels in the same way as Swin Transformer. 深さ方向の畳み込みに基づくネットワークでは、スウィントランスと同様にチャネル間の重みも共有する。 0.71
The results are reported in Table 10. 結果は表10に記載されている。 0.74
Spatial inhomogeneous dynamic convolutional weights. 空間的不均質な動的畳み込み重み。 0.55
In our experiment, we use weights shared across positions for the dynamic version of depth-wise convolution-based networks. 実験では、深度ワイド畳み込みネットワークの動的バージョンにおいて、位置間で共有される重みを用いる。 0.67
This may be enhanced by using weights not shared across positions, such as GENet [25], Involution [32], and Lite-HRNet [61]. これはgenet [25]、involution [32]、lite-hrnet [61]のような位置間で共有されない重みを用いることで強化される。 0.63
We made an initial investigation (inhomogeneous dynamic): generate local weights for each position using two 1 × 1 convolutions to predict the weights shared across each group of channels, which is a generalization of homogeneous dynamic weight prediction and similar to [32, 56, 61], and share the weights within each group of channels. 2つの1×1畳み込みを用いて各位置の局所的な重みを生成し,均質な動的重み予測の一般化であるチャネル群間で共有される重みを予測し, [32, 56, 61] に類似し, チャネル群内で重みを共有する。
訳抜け防止モード: 2つの1×1畳み込みを用いて各位置の局所的な重みを生成し,各チャネル群間で共有される重みを予測した。 均質な動的重量予測の一般化であり、[32, 56, 61]と類似している。 それぞれのチャネル内の重みを共有します。
0.75
The results are shown in Table 11. 結果は表11に示されています。 0.77
The higher performance from our new dynamic weight prediction way may stem from that the weights using the attention mechanism are predicted by regarding the keys as a set and our approach generates the kernel weights as a feature vector. 我々の新しい動的重み予測手法による高い性能は、注目機構を用いた重みが鍵を集合として予測され、我々のアプローチが特徴ベクトルとしてカーネル重みを生成することに由来するかもしれない。 0.80
F Potential Studies Complexity balance between point-wise (1 × 1) convolution and depth-wise (spatial) convolution. Fポテンシャル研究 複雑度は点(1×1)の畳み込みと深さ(空間)の畳み込みのバランスをとる。 0.65
Depth-wise convolution takes only about 2% computation in the depth-wise convolution-based architecture. 深さ方向の畳み込みは、深さ方向畳み込みベースのアーキテクチャで約2%の計算を必要とする。 0.48
The major computation complexity comes from 1 × 1 convolutions. 計算の複雑さは 1 × 1 の畳み込みから生じる。 0.81
The solutions to this issue could be: group 1 × 1 convolution studied in IGC [68, 44], and channel-wise weighting (like SENet) studied in Lite-HRNet [61] and EfficientNet [46, 47], or simply add more depth-wise (spatial) convolutions. IGC [68, 44]で研究されたグループ1×1の畳み込み、Lite-HRNet [61]とEfficientNet [46, 47]で研究されたチャネルワイドの重み付け、あるいはより深みのある(空間的な)畳み込みを追加する。 0.64
Table 11: Generate local weights for each positon and share the weights with each group of channels (inhomogeneous dynamic, I-Dynamic). 表11:各ポジトロンの局所的な重みを生成し、各チャネルのグループ(不均質な動的、i-動的)と重みを共有する。 0.72
The results are reported on the tiny model. 結果は小さなモデルで報告されている。 0.84
ImageNet COCO ImageNet COCO 0.85
ADE20K Swin I-Dynamic ADE20K Swin I-Dynamic 0.65
28M 4.5G 26M 3.95G 28M4.5G 26M 3.95G 0.44
86.6 87.1 #param. 86.6 87.1 #param。 0.64
FLOPs top-1 acc. FLOPs top-1 acc。 0.80
real acc. #param. 本物のaccだ #param。 0.62
FLOPs APbox APmask #param. FLOPs APbox APmask #param 0.64
FLOPs mIoU 60M 947G 44.5 58M 939G 46.2 FLOPs mIoU 60M 947G 44.5 58M 939G 46.2 0.62
86M 747G 50.5 84M 741G 50.8 86M 747G 50.5 84M 741G 50.8 0.55
81.3 81.8 43.7 44.0 81.3 81.8 43.7 44.0 0.50
22 22 0.85
英語(論文から抽出)日本語訳スコア
Attention weights as channel maps. チャンネルマップのような注意重み。 0.69
Attention weights in attention can be regarded as channel maps. 注意の注意重みはチャネルマップと見なすことができる。 0.76
The operations, such as convolution or simple weighting, can be applied to the attention weights. 畳み込みや単純な重み付けのような操作は、注意重みに適用することができる。 0.54
The resT approach [67] performs 1 × 1 convolutions over the attention weight maps. resT アプローチ [67] は注目重み写像上で 1 × 1 の畳み込みを行う。 0.72
Dynamic weights. In Swin Transformer and our developed dynamic depth-wise convolution networks, only the spatial part, attention and depth-wise convolution, explores dynamic weights. 動的重み。 Swin Transformerと我々の開発した動的深度ワイド畳み込みネットワークでは,空間的部分,注意,深度ワイド畳み込みのみが動的重み付けを探索する。 0.71
LiteHRNet instead studies dynamic weight for point-wise (1 × 1) convolution. LiteHRNetは、ポイントワイド(1×1)畳み込みのために動的ウェイトを研究する。 0.58
It is interesting to explore dynamic weight for both parts. 両部位の動的重みを調べることは興味深い。 0.66
Convolution-style MLP weights. 畳み込み式MLP重量計。 0.59
The weights of the spatial-mixing MLP in MLP-Mixer and ResMLP could be modified in the convolution-like style with more weights (some like the relative position embeddings used in local attention, larger than the image window size) so that it could be extended to larger images and downstream tasks with different image sizes. mlp-mixer と resmlp における空間混合 mlp の重みは、畳み込みのようなスタイルでより重み付け(局所注意で使われる相対的な位置埋め込みのように、画像ウィンドウサイズよりも大きいもの)で変更することができ、画像サイズが異なる大きな画像や下流タスクに拡張できる。 0.71
23 23 0.85
                                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。