論文の概要、ライセンス

# (参考訳) Transformed CNNs:自己注意で事前学習した畳み込み層をリキャストする [全文訳有]

Transformed CNNs: recasting pre-trained convolutional layers with self-attention ( http://arxiv.org/abs/2106.05795v1 )

ライセンス: CC BY 4.0
St\'ephane d'Ascoli, Levent Sagun, Giulio Biroli, Ari Morcos(参考訳) ビジョントランスフォーマー(ViT)は近年,畳み込みネットワーク(CNN)の強力な代替手段として登場した。 ハイブリッドモデルはこれらの2つのアーキテクチャ間のギャップを埋めようとしているが、それらが依存する自己注意層は特に大きな空間解像度において強力な計算ボトルネックを引き起こす。 本研究では,これらの層を畳み込み層として初期化することにより,これらの層を訓練するのに要する時間を短縮する手法を検討する。 これにより、任意の事前学習されたCNNからTransformed CNN(T-CNN)と呼ばれる機能的に同一のハイブリッドモデルへの移行を円滑に行うことができる。 わずか50回の微調整で、結果として得られたT-CNNはCNN(ResNet50-RSではImageNet-1kで+2.2%、ImageNet-Cでは+11%)よりも大幅に性能が向上した。 我々は、T-CNNが学習した表現を分析し、畳み込みと自己意識の間の実りある相互作用について深い洞察を提供する。 最後に、部分的に訓練されたCNNからT-CNNを初期化する実験を行い、トレーニング時間を短縮しつつ、スクラッチからトレーニングした対応するハイブリッドモデルよりも優れた性能が得られることを示した。

Vision Transformers (ViT) have recently emerged as a powerful alternative to convolutional networks (CNNs). Although hybrid models attempt to bridge the gap between these two architectures, the self-attention layers they rely on induce a strong computational bottleneck, especially at large spatial resolutions. In this work, we explore the idea of reducing the time spent training these layers by initializing them as convolutional layers. This enables us to transition smoothly from any pre-trained CNN to its functionally identical hybrid model, called Transformed CNN (T-CNN). With only 50 epochs of fine-tuning, the resulting T-CNNs demonstrate significant performance gains over the CNN (+2.2% top-1 on ImageNet-1k for a ResNet50-RS) as well as substantially improved robustness (+11% top-1 on ImageNet-C). We analyze the representations learnt by the T-CNN, providing deeper insights into the fruitful interplay between convolutions and self-attention. Finally, we experiment initializing the T-CNN from a partially trained CNN, and find that it reaches better performance than the corresponding hybrid model trained from scratch, while reducing training time.
公開日: Thu, 10 Jun 2021 14:56:10 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
0 1 ] G L . 0 1 ] G L。 0.81
s c [ 1 v 5 9 7 5 0 sc [ 1 v 5 9 7 5 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
recasting pre-trained convolutional layers with self-attention 訓練済みの畳み込み層を自己注意で再キャストする 0.40
Transformed CNNs: cnnに変身しました 0.39
Stéphane d’Ascoli∗1,2, Levent Sagun2, Giulio Biroli1 and Ari Morcos2 Stéphane d’Ascoli∗1,2, Levent Sagun2, Giulio Biroli1, Ari Morcos2 0.78
1Laboratoire de Physique de l’Ecole Normale Supérieure, Université PSL, CNRS, Sorbonne Université, Université Paris-Diderot, Sorbonne Paris Cité, Paris, France 1Laboratoire de Physique de l’Ecole Normale Supérieure, Université PSL, CNRS, Sorbonne Université, Université Paris-Diderot, Sorbonne Paris Cité, Paris, France 0.94
2Facebook AI Research, Paris, France 2Facebook AI Research, Paris, France 0.96
Abstract Vision Transformers (ViT) have recently emerged as a powerful alternative to convolutional networks (CNNs). 概要 ビジョントランスフォーマー(ViT)は近年,畳み込みネットワーク(CNN)の強力な代替手段として登場した。 0.59
Although hybrid models attempt to bridge the gap between these two architectures, the self-attention layers they rely on induce a strong computational bottleneck, especially at large spatial resolutions. ハイブリッドモデルはこれらの2つのアーキテクチャ間のギャップを埋めようとしているが、それらが依存する自己注意層は特に大きな空間解像度において強力な計算ボトルネックを引き起こす。 0.62
In this work, we explore the idea of reducing the time spent training these layers by initializing them as convolutional layers. 本研究では,これらの層を畳み込み層として初期化することにより,これらの層を訓練するのに要する時間を短縮する手法を検討する。
訳抜け防止モード: この研究で私たちは これらの層を畳み込み層として初期化することで、トレーニングに費やす時間を削減する。
0.74
This enables us to transition smoothly from any pretrained CNN to its functionally identical hybrid model, called Transformed CNN (T-CNN). これにより、任意の事前学習されたCNNからTransformed CNN(T-CNN)と呼ばれる機能的に同一のハイブリッドモデルへの移行を円滑に行うことができる。 0.59
With only 50 epochs of (cid:27)ne-tuning, the resulting T-CNNs demonstrate signi(cid:27)cant performance gains over the CNN (+2.2% top-1 on ImageNet-1k for a ResNet50-RS) as well as substantially improved robustness (+11% top-1 on ImageNet-C). 50 epochs (cid:27)ne-tuningで、結果として得られたT-CNNは、CNN(ResNet50-RSでImageNet-1kで+2.2%、ImageNet-Cで+11%)よりもパフォーマンスが向上した。 0.79
We analyze the representations learnt by the T-CNN, providing deeper insights into the fruitful interplay between convolutions and self-attention. 我々は、T-CNNが学習した表現を分析し、畳み込みと自己意識の間の実りある相互作用について深い洞察を提供する。 0.55
Finally, we experiment initializing the T-CNN from a partially trained CNN, and (cid:27)nd that it reaches better performance than the corresponding hybrid model trained from scratch, while reducing training time. 最後に、部分的に訓練されたcnnからt-cnnを初期化する実験を行い、(cid:27)scratchからトレーニングしたハイブリッドモデルよりも優れた性能に達するとともに、トレーニング時間を短縮した。
訳抜け防止モード: 最後に、我々は T-CNNを部分的に訓練されたCNNから初期化する そして(cid:27)、スクラッチからトレーニングされた対応するハイブリッドモデルよりもパフォーマンスが向上した。 トレーニング時間を短縮し
0.67
Introduction Since the success of AlexNet in 2012 [1], the (cid:27)eld of Computer Vision has been dominated by Convolutional Neural Networks (CNNs) [2, 3]. はじめに 2012 年の AlexNet の成功 [1] 以降,コンピュータビジョンの (cid:27) eld は,畳み込みニューラルネットワーク (CNN) [2, 3] によって支配されてきた。 0.85
Their local receptive (cid:27)elds give them a strong inductive bias to exploit the spatial structure of natural images [4–6], while allowing them to scale to large resolutions seamlessly. 局所受容性(cid:27)eldは、自然画像[4–6]の空間構造を利用するための強い誘導的バイアスを与え、大きな解像度にシームレスにスケールできる。 0.71
Yet, this inductive bias limits their ability to capture long-range interactions. しかし、この誘導バイアスは長距離相互作用を捉える能力を制限する。 0.67
In this regard, self-attention (SA) layers, originally introduced in language models [7–9], have gained interest as a building block for vision Ramachandran et al [10] and Zhao et al [11]. この点に関して、もともと言語モデル [7–9] で導入されたself-attention (sa) layer は vision ramachandran et al [10] と zhao et al [11] のビルディングブロックとして注目されている。 0.76
Recently, they gave rise to a plethora of Vision Transformer (ViT) models, able to compete with state-of-the-art CNNs in various tasks Dosovitskiy et al [12], Touvron et al [13], Wu et al [14], Touvron et al [15], Liu et al [16] and Heo et al [17] while demonstrating better robustness [18, 19]. 最近では、dosovitskiy et al [12], touvron et al [13], wu et al [14], touvron et al [15], liu et al [16], heo et al [17]といった様々なタスクで最先端のcnnと競合することのできる、多数の視覚トランスフォーマー(vit)モデルを生み出した。
訳抜け防止モード: 最近ではビジョントランスフォーマー(ViT)モデルが多数登場している。 Dosovitskiy氏と al [ 12 ] のさまざまなタスクにおいて、状態 - あるいは - アート CNN と競合することができる。 Touvron et al [13 ], Wu et al [14 ] Touvron et al [15 ], Liu et al [16 ] Heo et al [ 17 ] は優れた堅牢性を示しながら [ 18, 19 ]
0.86
However, capturing long-range dependencies necessarily comes at the cost of quadratic complexity in input size, a computational burden which many recent directions have tried to alleviate [20–23]. しかしながら、長距離依存性の捕捉は入力サイズの二次複雑性のコストに必然的に伴うものであり、最近の多くの方向が[20-23]を緩和しようと試みた計算上の負担である。
訳抜け防止モード: しかし、長い範囲の依存関係をキャプチャする 入力サイズが2倍に複雑になるのです 計算上の負担 最近の多くの方向が[20–23]を緩和しようと試みている.
0.72
Additionally, ViTs are generally harder to train [24, 25], and require vast amounts of pre-training [12] or distillation from a convolutional teacher [26–28] to match the performance of CNNs. さらに、ViTは[24, 25]を訓練するのが一般的に難しく、CNNのパフォーマンスに合わせた大量の事前学習[12]または共進化教師[26–28]の蒸留を必要とする。 0.77
Faced with the dilemma between e(cid:28)cient CNNs and powerful ViTs, several approaches have aimed to bridge the gap between these architectures. e(cid:28)サイエントCNNと強力なViTのジレンマに直面したいくつかのアプローチは、これらのアーキテクチャ間のギャップを埋めることを目的としている。 0.53
On one side, hybrid models append SA layers onto convolutional backbones [28–32], and have already fueled successful results in a variety of tasks [33–37]. 一方、ハイブリッドモデルは[28–32]の畳み込みバックボーンにsa層を付加し、[33–37]の様々なタスクですでに成功を収めている。 0.77
Conversely, a line of research has studied the bene(cid:27)t of introducing convolutional biases in Transformer architectures to ease learning [38–40]. 逆に、[38-40]学習を容易にするためにトランスフォーマーアーキテクチャに畳み込みバイアスを導入するというbene(cid:27)tを研究している。 0.61
Despite these interesting compromises, modelling long-range dependencies at low computational cost remains a challenge for practitioners. これらの興味深い妥協にもかかわらず、計算コストの低い長距離依存関係をモデル化することは、実践者にとって課題である。
訳抜け防止モード: これらの興味深い妥協にもかかわらず。 計算コストの低い長い範囲依存をモデル化する いまだに実践者の挑戦です
0.57
∗stephane.dascoli@ens .fr ∗stephane.dascoli@ens .fr 0.52
1 1 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: Transformed ResNets strike a strong accuracy-robustness balance. 図1: 変換されたResNetは、強い精度とロバスト性バランスを打ちます。 0.47
Our models (red) signi(cid:27)cantly outperform the original ResNet-RS models (dark blue) they were initialized from when evaluated on ImageNet-1k. 我々のモデル (red) signi (cid:27) は、ImageNet-1k で評価された元の ResNet-RS モデル (ダークブルー) を著しく上回ります。 0.75
On various robustness benchmarks (ImageNet-C, A and R, from left to right), they narrow or close the gap with Transformer architectures. さまざまな堅牢性ベンチマーク(ImageNet-C, A, R)では、Transformerアーキテクチャとのギャップを狭く、あるいは閉じている。 0.68
Contributions At a time when pre-training on vast datasets has become common practice, we ask the following question: does one need to train the SA layers during the whole learning process? コントリビューション 巨大なデータセットの事前トレーニングが一般的になったとき、私たちは次の質問に答える。 学習プロセス全体において、SA層をトレーニングする必要がありますか? 0.71
Could one instead learn cheap components such as convolutions (cid:27)rst, leaving the SA layers to be learnt at the end? その代わりに、畳み込み(cid:27)rstのような安価なコンポーネントを学び、最後にSA層を学習できるだろうか? 0.75
In this paper, we take a step in this direction by presenting a method to fully reparameterize a pre-trained convolutional layer as a Gated Positional Self-Attention (GPSA) layer [38]. 本稿では,事前学習した畳み込み層をGPSA(Gated Positional Self-Attention)層[38]として完全に再パラメータ化する方法を提案する。 0.73
The latter is initialized to reproduce the mapping of the convolutional layer, but is then encouraged to learn more general mappings which are not accessible to the CNN by adjusting positional gating parameters. 後者は畳み込み層のマッピングを再現するために初期化されるが、位置ゲーティングパラメータを調整することでcnnにはアクセスできないより一般的なマッピングを学ぶことが推奨される。 0.76
We leverage this method to reparametrize pre-trained CNNs as functionally equivalent hybrid models. この手法を用いて,事前学習したcnnを機能的に等価なハイブリッドモデルとして再パラメータ化する。 0.41
After only 50 epochs of (cid:27)ne-tuning, the resulting Transformed CNNs (T-CNNs) boast signi(cid:27)cant performance and robustness improvements as shown in Fig 1, demonstrating the practical relevance of our method. 得られたCNN(Transformed CNNs, T-CNNs)は, わずか50時間後(cid:27)に, 第1図に示すようにシグニ(cid:27)カント性能とロバスト性の改善が認められた。 0.63
We analyze the inner workings of the T-CNNs, showing how they learn more robust representations by combining convolutional heads and SA heads in a complementary way. 我々は,t-cnnsの内部動作を分析し,畳み込みヘッドとsaヘッドを相補的に組み合わせることで,より強固な表現を学ぶ方法を示した。 0.65
Finally, we investigate how performance gains depend on the reparametrization epoch. 最後に,性能向上は再パラメータ化の時期に依存するかを検討する。 0.56
Results suggest that reparametrizing at intermediate times is optimal in terms of speed-performance trade-o(cid:29)s. その結果, 中間時間における再パラメータ化は速度-性能トレードオフ(cid:29)の点で最適であることが示唆された。 0.52
Related work Our work mainly builds on two pillars. 関連作業 私たちの仕事は、主に2つの柱の上に構築されます。 0.48
First, the idea that SA layers can express any convolution, introduced by Cordonnier et al [41]. まず、SA 層は Cordonnier et al [41] によって導入された任意の畳み込みを表現できるという考えである。
訳抜け防止モード: まず第一に SA 層は Cordonnier et al [41 ] によって導入されたあらゆる畳み込みを表現することができる。
0.70
This idea was recently leveraged in d’Ascoli et al [38], which initialize the SA layers of the ViT as random convolutions and observe performance gains compared to the standard initialization, especially in the low-data regime where inductive biases are most useful. このアイデアは先日,vitのsa層をランダム畳み込みとして初期化し,標準初期化と比較してパフォーマンス向上を観測する,d’ascoli et al [38]で活用された。 0.58
Our approach is a natural follow-up of this idea: what happens if the SA layers are instead initialized as trained convolutions? SA層が代わりにトレーニングされた畳み込みとして初期化されるとどうなるか?
訳抜け防止モード: 私たちのアプローチは自然な追従です。 SA層が代わりにトレーニングされた畳み込みとして初期化されるとどうなるか?
0.69
Second, we exploit the following learning paradigm: train a simple and fast model, then reparameterize it as a more complex model for the (cid:27)nal stages of learning. 2つ目は、単純で高速なモデルをトレーニングした後、学習の(cid:27)段階のより複雑なモデルとして再評価する、という学習パラダイムの活用です。
訳抜け防止モード: 次に、以下の学習パラダイムを利用する。 シンプルで速いモデルを訓練して 次に、それを(cid:27)学習段階のより複雑なモデルとして再パラメータ化する。
0.77
This approach was studied from a scienti(cid:27)c point of view in d’Ascoli et al [42], which shows that reparameterizing a CNN as a fullyconnected network (FCN) halfway through training can lead the FCN to outperform the CNN. このアプローチは、D’Ascoli et al [42]のscienti(cid:27)cの視点から研究され、CNNをトレーニングの途中で完全接続ネットワーク(FCN)として再パラメータ化することで、FCNがCNNより優れていることを示す。 0.77
Yet, the practical relevance of this method is limited by the vast increase in number of parameters required by the FCN to functionally represent the CNN. しかし,本手法の実用的妥当性は,CNNを機能的に表現するためにFCNが要求するパラメータの数の増加によって制限される。 0.74
In contrast, our reparameterization hardly increases the parameter count of the CNN, making it easily applicable to any state-of-the-art CNN. 対照的に、我々の再パラメータ化はCNNのパラメータ数をほとんど増加せず、どの最先端CNNにも容易に適用できる。 0.61
Note that these reparameterization methods can be viewed an informed version of dynamic architecture growing algorithms such as AutoGrow [43]. これらのパラメータ化手法はAutoGrow[43]のような動的アーキテクチャ成長アルゴリズムのインフォームドバージョンを見ることができる。 0.80
In the context of hybrid models, various works have studied the performance gains obtained by introducing MHSA layers in ResNets with minimal architectural changes [28, 31, 32]. ハイブリッドモデルの文脈では、アーキテクチャの変更が最小限のresnetにmhsa層を導入することで得られるパフォーマンス向上について、様々な研究がなされている [28, 31, 32]。 0.65
However, the MHSA layers used in these works are initialized randomly and need to be trained from scratch. しかし、これらの研究で使われるMHSA層はランダムに初期化され、ゼロからトレーニングする必要がある。 0.60
Our approach is di(cid:29)erent, as it makes use of GPSA layers, which can be initialized to represent the same function as the convolutional layer it replaces. 当社のアプローチは、GPSA層を利用するため、di(cid:29)erentであり、それを置き換える畳み込み層と同じ関数を初期化することができる。 0.77
We emphasize that the novelty in our work is not in the architectures used, but in the unusual way they are blended together. 私たちの仕事の新規性は、使用されるアーキテクチャではなく、珍しい方法でそれらが混ざり合わさっている点を強調します。 0.64
2 102Model size (M)78808284ImageNet accuracy102Model size (M)4045505560ImageNe t-C accuracy102Model size (M)10203040ImageNet- A accuracy102Model size (M)20304050ImageNet- R accuracyViTDeiTConVi TResNetResNet-RST-Re sNet-RS 2 102Model size (M)78808284 ImageNet accuracy102Model size (M)4045505560ImageNe t-C accuracy102Model size (M)10203040ImageNet- A accuracy102Model size (M)20304050ImageNet- R accuracyViTDeiTConVi TResNetResNet-RST-Re sNet-RS 0.69
英語(論文から抽出)日本語訳スコア
1 Background Multi-head self-attention The SA mechanism is based on a trainable associative memory with (key, query) vector pairs. 1 バックグラウンド マルチヘッドの自己アテンション SAメカニズムは(キー、クエリ)ベクトル対を持つトレーニング可能な連想メモリに基づいている。 0.63
To extract the semantic interpendencies between the L elements of a sequence X ∈ RL×Din, a sequence of “query” embeddings Q = W qryX ∈ RL×Dh is matched against another sequence of “key” embeddings K = W keyX ∈ RL×Dh using inner products. 列 X ∈ RL×Din の L 要素間の意味的相互依存性を抽出するために、「クエリ」埋め込み Q = W qryX ∈ RL×Dh の列は、内積を用いて「キー」埋め込み K = W keyX ∈ RL×Dh の別の列と一致する。 0.79
The result is an attention matrix whose entry (ij) quanti(cid:27)es how semantically relevant Qi その結果、(ij) Quanti(cid:27)が意味論的に関係のあるQiを示す注目行列となる。 0.67
is to Kj: Kjに聞いてみましょう 0.49
A = softmax A = ソフトマックス 0.79
∈ RL×L. (1) rl×l である。 (1) 0.73
(cid:18) QK(cid:62)√ (cid:18) qk(cid:62)] 0.78
(cid:19) Dh (cid:19) Dh 0.82
Multi-head SA layers use several SA heads in parallel to allow the learning of di(cid:29)erent kinds of マルチヘッドSA層は、複数のSAヘッドを平行に使用し、Di(cid:29)の学習を可能にする 0.63
dependencies: MSA(X) := 依存関係: MSA(X) := 0.78
Nh(cid:88) Nh (cid:88) 0.82
h=1 [SAh(X)] W h h=1 [SAh(X)] W h 0.67
out, SAh(X) := AhXW h 出て行け SAh(X) := AhXW h 0.66
val, (2) where W hval ∈ RDin×Dv and W hout ∈ RDv×Dout are two learnable projections. ヴァル (2) ここで W hval ∈ RDin×Dv と W hout ∈ RDv×Dout は2つの学習可能な射影である。 0.64
To incorporate positional information, ViTs usually add absolute position information to the input at embedding time, before propagating it through the SA layers. 位置情報を組み込むために、ViTは通常、SA層を介して伝播する前に、埋め込み時に入力に絶対位置情報を付加する。 0.69
Another possibility is to replace the vanilla SA with positional SA (PSA), including a position-dependent term in the softmax [10, 44]. もう1つの可能性は、バニラSAをソフトマックス[10,44]の位置依存項を含む位置依存型SA(PSA)に置き換えることである。 0.63
Although there are several way to parametrize the positional attention, we use encodings rij of the relative position of pixels i and j as in [38, 41]: 位置の注意をパラメータ化する方法はいくつかあるが、[38, 41]の画素 i, j の相対的な位置のエンコーディング rij を用いる。 0.77
(cid:16) pos ∈ RDpos, and the relative positional encodings rij ∈ Each attention head learns an embedding vh RDpos only depend on the distance between pixels i and j, denoted denoted as a two-dimensional vector δij. (cid:16) pos ∈ rdpos であり、相対的な位置符号化 rij ∈ each attention head は埋め込み vh rdpos が画素 i と j の間の距離のみに依存することを学習する。
訳抜け防止モード: (cid:16 ) pos ∈ RDpos, and the relative positional encodings rij ∈ each attention head learns a embedded vh RDpos only to the distance between pixels i and j, 2次元ベクトルδij と表される。
0.82
j + vh(cid:62) j + vh(cid:62) 0.92
ij := softmax ij :=ソフトマックス 0.81
i Kh(cid:62) Qh i Kh (cid:62) Qh 0.91
(cid:17) posrij (cid:17) ポスリジ 0.55
. Ah (3) Self-attention as a generalized convolution Cordonnier et al [41] shows that a multi-head PSA layer (Eq. . あー (3) 一般化畳み込みCordonnier et al[41] としての自己アテンションは、マルチヘッドPSA層(Eq)を示す。 0.78
3) with Nh heads and dimension Dpos ≥ 3 can express any convolutional layer of (cid:27)lter size √ N h, with Din input channels and min(Dv, Dout) output channels, by setting the following: 3) nh ヘッドと次元 dpos ≥ 3 では、次の設定により、din 入力チャネルと min(dv, dout) 出力チャネルを持つ (cid:27)lter サイズの任意の畳み込み層を表現できる。 0.78
 vh pos := −αh(cid:0)1,−2∆h rδ :=(cid:0)(cid:107)δ(cid:107)2, δ1, δ2, 0, . vh pos := −αh(cid:0)1,−2\h rδ :=(cid:0)(cid:107)δ(cid:107)2, δ1, δ2, 0, 。 0.80
. . 0(cid:1) . . 0(cid:1) 0.85
W qry = W key := 0 W qry = W key := 0 0.85
1 ,−2∆h 2 , 0, . 1-,2-h 2 , 0, . 0.71
. . 0(cid:1) . . 0(cid:1) 0.85
(4) In the above, the center of attention ∆h ∈ R2 is the position to which head h pays most attention to, relative to the query pixel, whereas the locality strength αh > 0 determines how focused the attention is around its center ∆h. (4) 上記の点において、注意の中心は、ヘッドhがクエリピクセルに対して最も注意を払っている位置であり、ローカリティ強度 αh > 0 は、注意が中心 yh の周りにどれだけ集中しているかを決定する。 0.78
When αh is large, the attention is focused only on the pixel located at ∆h; when αh is small, the attention is spread out into a larger area. αhが大きい場合、αh にある画素のみに注目が集中し、αh が小さい場合には、より広い領域に注目が広がる。
訳抜け防止モード: αh が大きければ、注目は .h にあるピクセルにのみ焦点をあてる。 ; αh が小さい場合には、注意がより広い領域に広がる。
0.78
Thus, the PSA layer can achieve a convolutional attention map by setting the centers of attention ∆h to each of the possible positional o(cid:29)sets of a √ Nh convolutional kernel, and sending the locality strengths αh to some large value. このようにして、PSA層は、nh の畳み込み核の可能な位置 o(cid:29) 集合のそれぞれに注意の中心を設定し、局所性強度 αh を大きな値にすることで、畳み込み注意写像を達成できる。 0.73
Nh ×√ 2 Approach In this section, we introduce our method for mapping a convolutional layer to a functionally equivalent PSA layer with minimal increase in parameter count. Nh ×! 2 アプローチ 本項では, パラメータ数の増加を最小限に抑えつつ, 機能的に等価なPSA層に畳み込み層をマッピングする方法を紹介する。 0.76
To do this, we leverage the GPSA layers introduced in d’Ascoli et al [38]. そのために、d’Ascoli et al[38]で導入されたGPSAレイヤを活用します。 0.65
3 3 0.85
英語(論文から抽出)日本語訳スコア
Loading the (cid:27)lters We want each head h of the PSA layer to functionally mimic the pixel h of a convolutional (cid:27)lter W (cid:27)lter ∈ RNh×Din×Dout, where we typically have Dout ≥ Din. cid:27)ltersをロードする psa 層の各ヘッド h は、一般に dout ≥ din を持つ畳み込み (cid:27)lter w (cid:27)lter ∈ rnh×din×dout のピクセル h を機能的に模倣したい。 0.76
Rewriting the action of the MHSA operator in a more explicit form, we have より明示的な形で MHSA 作用素の作用を書き換える。 0.48
MHSA(X) = AhX W hval W hout MHSA(X) = AhX W hval W hout 0.85
(cid:124) (cid:123)(cid:122) (cid:124) (cid:123)(cid:122) 0.77
(cid:125) W h∈RDin×Dout (cid:125) W hıRDin×Dout 0.71
Nh(cid:88) Nh (cid:88) 0.82
h=1 (5) In the convolutional con(cid:27)guration of Eq 4, AhX selects pixel h of X. h=1 (5) Eq 4 の畳み込み Con(cid:27) では、AhX は X のピクセル h を選択する。 0.74
Hence, we need to set W h = W h(cid:27)lter. したがって、w h = w h(cid:27)lter をセットする必要がある。 0.77
However, as a product of matrices, the rank of W h is bottlenecked by Dv. しかし、行列の積として、Wh のランクは Dv によってボトルネックとなる。 0.67
To avoid this being a limitation, we need Dv ≥ Din (since Dout ≥ Din). この制限を避けるには、Dv ≥ Din (Dout ≥ Din) が必要である。 0.80
To achieve this with a minimal number of parameters, we choose Dv = Din, and simply set the following initialization: 最小限のパラメータでこれを達成するために、Dv = Dinを選択し、以下の初期化を単に設定する。 0.81
(6) Note that this di(cid:29)ers from the usual choice made in SA layers, where Dv = (cid:98)Din/Nh(cid:9 9). (6)この di(cid:29) は、Dv = (cid:98)Din/Nh(cid:9 9) のSA層における通常の選択から来ていることに注意。 0.71
However, to keep the parameter count the same, we share the same W h across di(cid:29)erent heads h, since it plays a symmetric role at initialization. しかし、パラメータを同じ数に保ち続けるために、初期化において対称的な役割を果たすため、di(cid:29)erent headh で同じ Wh を共有する。 0.81
W hout = W h(cid:27)lter. w hout = w h(cid:27)lter。 0.91
W hval = I, W hval = I, 0.85
Note that this reparameterization introduces three additional matrices compared to the convolutional (cid:27)lter: W qry, W key, W val, each containing Din × Din parameters. この再パラメータ化は、畳み込み (cid:27)lter: W qry, W key, W val, それぞれ Din × Din パラメータを含む3つの追加行列を導入することに注意されたい。 0.73
However, since the convolutional (cid:27)lter contains Nh × Din × Dout parameters, where we typically have Nh = 9 and Dout ∈ {Din, 2Din}, these additional matrices are much smaller than the (cid:27)lters and hardly increase the parameter count. しかし、畳み込み (cid:27)lter は nh × din × dout パラメータを持ち、通常 nh = 9 と dout ∈ {din, 2din} を持つので、これらの追加行列は (cid:27)lter よりもはるかに小さく、パラメータ数をほとんど増加しない。 0.78
This can be seen from the model sizes in Tab. これはtabのモデルサイズから見ることができます。 0.74
2. val Gated Positional self-attention Recent work [38] has highlighted an issue with standard PSA: the fact that the content and positional terms in Eq 3 are potentially of very di(cid:29)erent magnitudes, in which case the softmax ignores the smallest of the two. 2. ヴァル Gated Positional Self-attention recent work [38] has highlighted a problem with standard PSA; that the content and positional terms in Eq 3 is likely of very di(cid:29)erent magnitudes, which case the softmax ignores the least of the two。 0.76
This can typically lead the PSA to adopt a greedy attitude: choosing the form of attention (content or positional) which is easiest at a given time then sticking to it. これは典型的にはPSAが欲張りな態度をとる: ある時点で最も容易な注意形態(コンテンツまたは位置)を選択し、それに固執する。 0.71
To avoid this, the ConViT d’Ascoli et al [38] uses GPSA layers which sum the content and positional terms after the softmax, with their relative importances governed by a learnable gating parameter λh (one for each attention head). これを避けるために、ConViT d’Ascoli et al[38]は、ソフトマックスの後の内容と位置項を要約するGPSA層を使用し、その相対的重要性は学習可能なゲーティングパラメータλh(各注目ヘッドに対して1つ)によって管理される。 0.68
In GPSA layers, the attention is parametrized as follows: GPSA層では、以下のように注意をパラメトリケートする。 0.68
(cid:16) (cid:17) (cid:16) (cid:17) 0.78
(cid:16) (cid:17) (cid:16) (cid:17) 0.78
ij := (1 − σ(λh)) softmax Ah ij := (1 − σ(λh)) Softmax Ah 0.89
i Kh(cid:62) Qh i Kh (cid:62) Qh 0.91
j + σ(λh) softmax j + σ(λh) ソフトマックス 0.83
vh(cid:62) posrij vh(cid:62) posrij 0.88
, (7) where σ : x (cid:55)→ 1/(1+e−x) is the sigmoid function. , (7) ここで σ : x (cid:55)→ 1/(1+e−x) はシグモイド函数である。 0.79
In the positional part, the encodings rij are (cid:27)xed rather than learnt (see Eq 4), which makes changing input resolution straightforward (see SM. 位置部分では、エンコーディングrijは学習ではなく(cid:27)xedであり(eq4を参照)、入力解像度の変更が簡単になる(sm参照)。 0.69
B) and leaves only 3 learnable parameters per head: ∆1, ∆2 and α b)1頭あたりの学習可能なパラメータは3つだけ:1,2,α 0.78
1. How convolutional should the initialization be? 1. 初期化はどのように畳み込むべきか? 0.73
The convolutional initialization of GPSA layers involves two parameters, determining how strictly convolutional the behavior is: the initial value of the locality strength α, which determines how focused each attention head is on its dedicated pixel, and the initial value of the gating parameters λ, which determines the importance of the positional information versus content. gpsa層の畳み込み初期化には、2つのパラメータがあり、その振舞いがいかに厳密に畳み込まれているかを決定する: 各注意ヘッドがそれぞれのピクセルにどれだけ集中しているかを決定する局所強度αの初期値と、位置情報とコンテンツの重要性を決定するゲーティングパラメータλの初期値である。 0.81
If λh (cid:29) 0 and α (cid:29) 1, the T-CNN will perfectly reproduce the input-output function of the CNN, but may stay stuck in the convolutional con(cid:27)guration. λh (cid:29) 0 と α (cid:29) 1 のとき、T-CNN は CNN の入力出力関数を完全に再現するが、畳み込みの con(cid:27) 式に留まることがある。 0.77
Conversely, if λh (cid:28) 0 and α (cid:28) 1, the T-CNN will poorly reproduce the input-output function of the CNN. 逆に λh (cid:28) 0 と α (cid:28) 1 の場合、T-CNN は CNN の入力出力関数を十分に再現しない。 0.77
Hence, we choose α = 1 and λ = 1 to lie in between these two extremes. したがって、α = 1 と λ = 1 を選択してこれら二つの極点の間に位置する。 0.70
This puts the T-CNN “on the verge of locality”, enabling it to escape locality e(cid:29)ectively throughout training. これにより、t-cnnは訓練を通して局所性e(cid:29)から逃れることができる。 0.59
1Since α represents the temperature of the softmax, its value must stay positive at all times. 1αはソフトマックスの温度を表すため、その値は常に正でなければならない。 0.75
To ensure this, we instead これを保証するため 代わりに 0.73
learn a recti(cid:27)ed parameter ˜α using the softplus function: α = 1 ソフトプラス関数を使ってretti(cid:27)edパラメータ >α を学ぶ: α = 1 0.79
β log(1 + e−β ˜α), with β = 5. β log(1 + e−β >α) で、β = 5。 0.94
4 4 0.85
英語(論文から抽出)日本語訳スコア
(a) ImageNet-1k (a)ImageNet-1k 0.66
(b) Robustness benchmarks b)堅牢性ベンチマーク 0.81
Figure 2: T-CNNs present better speed-accuracy trade-o(cid:29)s than the CNNs they stem from. 図2:T-CNNは、そこから派生したCNNよりも、より高速な取引(cid:29)を提示します。 0.55
Total training time (original training + (cid:27)netuning) is normalized by the total training time of the ResNet50-RS. 総トレーニング時間(オリジナルトレーニング+(cid:27)ネット)はResNet50-RSの総トレーニング時間によって正規化される。 0.75
Inference throughput is the number of images processed per second on a V100 GPU at batch size 32. 推論スループットは、バッチサイズ32のV100 GPU上で毎秒処理される画像数である。 0.74
Architectural details To make our setup as canonical as possible, we focus on ResNet architectures [45], which contain 5 stages, with spatial resolution halfed and number of channels doubled at each stage. アーキテクチャの詳細 設定を可能な限り標準的なものにするために、私たちは、5つのステージを含むresnetアーキテクチャ [45]に集中します。
訳抜け防止モード: アーキテクチャの詳細 可能な限り標準として設定するために、ResNetアーキテクチャ [45 ]に焦点を当てます。 空間分解能が半減し、各ステージにチャンネルの数が倍増した5つのステージを含む。
0.63
Our method involves reparameterizing 3 × 3 convolutions as GPSA layers with 9 attention heads. 本手法では,9つのアテンションヘッドを持つGPSA層として3×3畳み込みを再パラメータ化する。 0.53
However, global SA is too costly in the (cid:27)rst layers, where the spatial resolution is large. しかし、グローバルSAは空間分解能が大きい (cid:27)rst 層では高すぎる。 0.63
We therefore only reparameterize the last stage of the architecture, while replacing the (cid:27)rst stride-2 convolution by a stride-1 convolution, exactly as in [32]. したがって, [32] において, (cid:27)rst stride-2 畳み込みを stride-1 畳み込みに置き換えながら, アーキテクチャの最終段階のみを再評価する。 0.75
We also add explicit padding layers to account for the padding of the original convolutions. また、元の畳み込みのパディングを考慮した明示的なパディング層を追加します。 0.52
3 Performance of the Transformed CNNs In this section, we apply our reparametrization to state-of-the-art CNNs, then (cid:27)ne-tune the resulting T-CNNs to learn better representations. 3 変換されたCNNの性能 この節では、我々の再パラメータ化を最先端CNNに適用し、(cid:27)結果のT-CNNをチューニングしてより良い表現を学習する。 0.58
This method allows to fully disentangle the training of the SA layers from that of the convolutional backbone, which is of practical interest for two reasons. この方法では,畳み込みバックボーンからsa層のトレーニングを完全に分離することができる。
訳抜け防止モード: この方法では、畳み込みバックボーンからsa層のトレーニングを完全に分離することができる。 それは2つの理由から実用的関心事です
0.69
First, it minimizes the time spent training the SA layers, which typically have a slower throughput. まず、saレイヤのトレーニングに費やす時間を最小限に抑えます。
訳抜け防止モード: まず 費やす時間を最小限に抑えます 一般的にスループットが遅いsa層をトレーニングする。
0.65
Second, it separates the algorithmic choices of the CNN backbone from those of the SA layers, which are typically di(cid:29)erent; for example, CNNs are typically trained with SGD whereas SA layers perform much better with adaptive optimizers such as Adam [24], an incompatibility which may limit the performance of usual hybrid models. 第二に、CNNのバックボーンのアルゴリズム的選択は、典型的にはdi(cid:29)erentであるSA層と区別する。例えば、CNNはSGDで訓練されるのに対して、SA層はAdam [24]のような適応最適化器でより優れた性能を発揮する。
訳抜け防止モード: 第2に、CNNのバックボーンのアルゴリズム的選択を、通常 di(cid:29)erent である SA レイヤのものと区別する。 CNNは一般的にSGDで訓練されるが、SA層はAdam [24 ]のような適応最適化器でより優れた性能を発揮する。 通常のハイブリッドモデルの性能を制限する不整合性。
0.69
Training details To minimize computational cost, we restrict the (cid:27)ne-tuning to 50 epochs2. 計算コストを最小化するために、(cid:27)ne-tuningを50 epochs2に制限する。 0.66
Following [24], we use the AdamW optimizer, with a batch size of 10243. 以下の[24]では、バッチサイズが10243のAdamWオプティマイザを使用します。 0.66
The learning rate is warmed up to 10−4 then annealed using a cosine decay. 学習率は10−4までウォームアップされ、コサイン崩壊を用いてアニールされる。 0.58
To encourage the T-CNN to escape the convolutional con(cid:27)guration and learn content-based attention, we use a larger learning rate of 0.1 for the gating parameters of Eq 7 (one could equivalently decrease the temperature of the sigmoid function). t-cnnは畳み込みcon(cid:27)グルテーションから逃れ、コンテンツベースの注意を学習するために、eq7のゲーティングパラメータに対して0.1の学習率(sgmoid関数の温度を同等に低下させることができる)を用いる。 0.71
We use the same data augmentation scheme as the DeiT [13], as well as rather large stochastic depth coe(cid:28)cients dr reported in Tab. DeiT[13]と同じデータ拡張スキームと,Tabで報告された比較的大きな確率的深度(cid:28)サイエントコエ(cid:28)を用いた。 0.74
1. Hoping that our method could be used as an alternative to the commonly used practice of (cid:27)ne-tuning models at higher resolution, we also increase the resolution during (cid:27)ne-tuning [46]. 1. 提案手法を高分解能で(cid:27)ne-tuningモデルの一般的な方法の代替として用いることができると仮定し,(cid:27)ne-tuning [46]における分解能も向上する。 0.79
In this setting, a ResNet50 requires only 6 hours of (cid:27)ne-tuning on 16 V100 GPUs, compared to 33 hours for the original training. この設定では、resnet50は16のv100 gpuでわずか6時間(cid:27)のチューニングを必要とする。
訳抜け防止モード: この設定では、ResNet50はわずか6時間(cid:27)で16V100 GPUをチューニングできる。 当初の訓練に33時間かかりました
0.75
For our largest model (ResNet350-RS), the (cid:27)ne-tuning lasts 50 hours. 私たちの最大のモデル(ResNet350-RS)では、(cid:27)チューニング時間は50時間です。 0.61
2We study how performance depends on the number of (cid:27)ne-tuning epochs in SM. 2 SMでは, (cid:27)ne-tuning epochs の数に依存する性能について検討した。 0.55
C. 3Con(cid:27)rming the results of [24], we obtained worse results with SGD. c. 3con(cid:27) [24] の結果を満たし, sgd でさらに悪い結果を得た。 0.68
5 100101Total training time808284ImageNet top-1ResNet-RST-ResN et-RS102103Inference throughput8082841001 01Total training time0204060Top-1 accuracyImageNet-CIm ageNet-RImageNet-A10 2103Inference throughput0204060 5 100101Total training time808284ImageNet top-1ResNet-RST-ResN et-RS102103Inference throughput8082841001 01Total training time0204060Top-1 accuracyImageNet-CIm ageNet-RImageNet-A10 2103Inference throughput0204060 0.58
英語(論文から抽出)日本語訳スコア
Training Backbone ResNet50-RS ResNet101-RS ResNet152-RS ResNet200-RS ResNet270-RS ResNet350-RS 研修 背骨 ResNet50-RS ResNet101-RS ResNet152-RS ResNet200-RS ResNet270-RS ResNet350-RS 0.52
Res. 160 192 256 256 256 288 Res! 160 192 256 256 256 288 0.77
dr 0.0 0.0 0.0 0.1 0.1 0.1 dr 0.0 0.0 0.0 0.1 0.1 0.1 0.47
TTT 1 (ref.) TTT 1 (ref)。 0.83
1.39 3.08 4.15 6.19 10.49 1.39 3.08 4.15 6.19 10.49 0.44
Top-1 Res. 78.8 224 224 80.3 320 81.2 320 82.8 83.8 320 320 84.0 トップ1入り。 78.8 224 224 80.3 320 81.2 320 82.8 83.8 320 320 84.0 0.62
dr 0.1 0.1 0.2 0.2 0.2 0.2 dr 0.1 0.1 0.2 0.2 0.2 0.2 0.47
Fine-tuning Without SA TTT Top-1 1.16 80.4 81.9 1.65 83.4 3.75 83.7 5.04 7.49 83.9 84.1 12.17 微調整 SA TTT Top-1.16 80.4 81.9 1.65 83.4 3.75 83.7 5.04 7.49 83.9 84.1 12.17 0.45
With SA TTT Top-1 1.30 81.0 1.79 82.4 4.13 83.7 5.42 84.0 7.98 84.3 12.69 84.5 サと TTT Top-1 1.30 81.0 1.79 82.4 4.13 83.7 5.42 84.0 7.98 84.3 12.69 84.5 0.45
Table 1: Statistics of the models considered, trained from scratch on ImageNet. 表1: ImageNetでスクラッチからトレーニングされた、検討されたモデルの統計。 0.70
Top-1 accuracy is measured on ImageNet-1k validation set. トップ1の精度はImageNet-1k検証セットで測定される。 0.60
“TTT” stands for total training time (including (cid:27)ne-tuning), normalized by the total training time of the ResNet50-RS. TTT”は、ResNet50-RSの総トレーニング時間によって正規化される、全トレーニング時間 (cid:27) を表す。 0.82
dr is the stochastic depth coe(cid:28)cient used for the various models. dr は様々なモデルに使用される確率的深さ coe(cid:28) である。 0.72
Figure 3: Robustness is most improved for strong and blurry corruption categories. 図3: 堅牢性は、強くてぼやけた汚職のカテゴリで最も改善されます。 0.53
We report the relative improvement between the top-1 accuracy of the T-ResNet50-RS and that of the ResNet50-RS on ImageNet-C, averaging over the di(cid:29)erent corruption categories (left) and corruption severities (right). 本稿では,T-ResNet50-RSの上位1次精度とImageNet-C上のResNet50-RSとの相対的な改善について報告する。
訳抜け防止モード: 我々はT-ResNet50-RSのトップ-1精度の相対的改善を報告した。 そしてImageNetのResNet50-RS - C, di(cid:29)の汚職カテゴリー(左)と汚職の深刻度(右)を平均化する。
0.60
Performance gains We applied our method to pre-trained ResNet-RS [47] models, using the weights provided by the timm package [48]. 性能向上 プリトレーニングされた resnet-rs [47] モデルに timm パッケージ [48] の重みを使い、この手法を適用した。 0.71
These models are derived from the original ResNet [45], but use improved architectural features and training strategies, enabling them to reach better speed-accuracy trade-o(cid:29)s than E(cid:28)cientNets. これらのモデルはオリジナルの resnet [45] から派生したものだが、改良されたアーキテクチャ機能とトレーニング戦略を使用して、e(cid:28)cientnets よりも高速な trade-o(cid:29) に到達できる。 0.59
Results are presented in Tab. 結果はタブで示されます。 0.73
1, where we also report the baseline improvement of (cid:27)ne-tuning in the same setting but without SA. また,同じ条件で(cid:27)ne-tuningのベースライン改善を報告したが,SAは得られなかった。 0.61
In all cases, our (cid:27)ne-tuning improves top-1 accuracy, with a signi(cid:27)cant gap over the baseline. いずれの場合も(cid:27)ne-tuningは、ベースライン上のsigni(cid:27)cantギャップでtop-1の精度を向上させる。 0.62
To demonstrate the wide applicability of our method, we report similar improvements for ResNet-D architectures in SM. 本手法の適用性を示すため,SMにおけるResNet-Dアーキテクチャの改良について報告する。 0.65
D. Despite the extra (cid:27)ne-tuning epochs and their slower throughput, the resulting T-CNNs match the performance of the original CNNs at equal throughput, while signi(cid:27)cantly outperforming them at equal total training time, as shown in the Pareto curves of Fig 2(a)4. d. 過度の (cid:27) チューニングエポックとその遅いスループットにもかかわらず、結果として得られたT-CNNは元のCNNのパフォーマンスを同等のスループットで、また、Fig 2(a)4のPareto曲線に示すように、シグニ(cid:27)は同等のトレーニング時間でそれらを同等に上回る。 0.71
However, the major bene(cid:27)t of the reparametrization is in terms of robustness, as shown in Fig 2(b) and explained below. しかし、再パラメータ化の主要なベネ(cid:27)tは、図2(b)に示すようにロバスト性の観点から説明される。 0.66
Robustness gains Recent work [18, 19] has shown that Transformer-based architectures are more robust to input perturbations than convolutional architectures. ロバスト性 最近の研究 [18, 19] では、トランスフォーマーベースのアーキテクチャは畳み込み型アーキテクチャよりも入力摂動にロバストであることが示されている。
訳抜け防止モード: ロバスト性は最近の研究[18, 19]から トランスフォーマ-ベースのアーキテクチャは畳み込み型アーキテクチャよりも入力摂動に対して堅牢である。
0.64
We therefore investigate whether our (cid:27)ne- したがって、我々の(cid:27)ne- 0.72
4We estimated the training times of the original ResNet-RS models based on their throughput, for the same hardware as 4) 元のresnet-rsモデルのスループットに基づいてトレーニング時間を同じハードウェアで推定した。 0.72
used for the T-ResNet-RS. T-ResNet-RSで使用される。 0.58
6 12345Corruption severity01020304050R el. 6 12345Corruption severity01020304050R el 0.78
improvementbrightnes selastic transformpixelatejpe g compressionglass blurmotion blurzoom blurdefocus blurfogshot noisegaussian noisefrostsnowimpuls e noisecontrast0102030 4050Rel. 改良brightnesselastic transformpixelatejpe g blurmotion blurzoom blurdefocus blurfogshot noisegaussian noisefrostsnowimpuls e noisecontrast0102040 50rel 0.83
improvementnoiseblur digitalweather improvenoiseblurdigi talweather 0.33
英語(論文から抽出)日本語訳スコア
Model ViT-B/16 ViT-L/16 DeiT-S DeiT-B ConViT-S ConViT-B モデル ViT-B/16 ViT-L/16 DeiT-S DeiT-B ConViT-S ConViT-B 0.58
ResNet50 ResNet101 ResNet101x3 ResNet152x4 ResNet50-RS ResNet101-RS ResNet152-RS ResNet200-RS ResNet270-RS ResNet350-RS ResNet50 ResNet101 ResNet101x3 ResNet152x4 ResNet50-RS ResNet101-RS ResNet200-RS ResNet200-RS ResNet350-RS 0.39
T-ResNet50-RS T-ResNet101-RS T-ResNet152-RS T-ResNet200-RS T-ResNet270-RS T-ResNet350-RS T-ResNet50-RS T-ResNet101-RS T-ResNet152-RS T-ResNet200-RS T-ResNet270-RS T-ResNet350-RS 0.22
Res. Params Speed Res! パラム 速度 0.59
Flops ImNet-1k フラップ ImNet-1k 0.50
ImNet-C ImNet-A ImNet-R ImNet-C ImNet-A ImNet-R 0.47
Transformers 224 224 224 224 224 224 変圧器 224 224 224 224 224 224 0.66
224 224 224 224 160 192 256 256 256 288 224 224 224 224 160 192 256 256 256 288 0.85
224 224 320 320 320 320 224 224 320 320 320 320 0.85
86 M 307 M 22 M 87 M 28 M 87 M 86 M 307 M 22 M 87 M 28 M 87 M 0.85
25 M 45 M 207 M 965 M 36 M 64 M 87 M 93 M 130 M 164 M 25 M 45 M 207 M 965 M 36 M 64 M 87 M 93 M 130 M 164 M 0.85
38 M 66 M 89 M 96 M 133 M 167 M 38 M 66 M 89 M 96 M 133 M 167 M 0.85
182 55 544 182 296 139 182 55 544 182 296 139 0.85
77.9 76.5 79.9 82.0 81.5 82.4 77.9 76.5 79.9 82.0 81.5 82.4 0.43
16.9 59.7 4.6 17.6 5.4 17.7 CNNs 4.1 7.85 69.6 183.1 4.6 12.1 31.2 40.4 54.2 87.5 16.9 59.7 4.6 17.6 5.4 17.7 CNNs 4.1 7.85 69.6 183.1 4.6 12.1 31.2 40.4 54.2 87.5 0.42
736 76.8 435 78.0 62 80.3 18 80.4 938 78.8 674 80.3 304 81.2 225 82.8 152 83.8 89 84.0 Our transformed CNNs 81.0 447 334 82.4 83.7 128 84.0 105 75 84.3 61 84.5 736 76.8 435 78.0 62 80.3 18 80.4 938 78.8 674 80.3 304 81.2 225 82.8 152 83.8 89 84.0 Our transformed CNNs 81.0 447 334 82.4 83.7 128 84.0 105 75 84.3 61 84.5 0.62
17.6 25.1 65.8 80.2 107.2 130.5 17.6 25.1 65.8 80.2 107.2 130.5 0.43
52.2 49.3 55.4 60.7 59.5 61.9 52.2 49.3 55.4 60.7 59.5 61.9 0.43
46.1 50.2 53.4 54.5 36.8 44.1 49.9 49.3 53.6 53.9 46.1 50.2 53.4 54.5 36.8 44.1 49.9 49.3 53.6 53.9 0.42
48.0 52.9 54.5 57.0 58.6 59.2 48.0 52.9 54.5 57.0 58.6 59.2 0.43
7.0 6.1 18.9 27.4 24.5 29.0 7.0 6.1 18.9 27.4 24.5 29.0 0.43
4.2 6.3 9.1 11.6 5.7 11.8 23.4 25.4 26.6 34.9 4.2 6.3 9.1 11.6 5.7 11.8 23.4 25.4 26.6 34.9 0.42
18.7 27.7 39.8 41.2 43.7 44.8 18.7 27.7 39.8 41.2 43.7 44.8 0.43
21.9 17.9 31.0 34.6 34.0 36.9 21.9 17.9 31.0 34.6 34.0 36.9 0.43
21.5 23.0 24.5 25.8 39.1 44.8 45.9 48.1 48.7 49.7 21.5 23.0 24.5 25.8 39.1 44.8 45.9 48.1 48.7 49.7 0.42
42.9 47.8 50.6 51.1 51.4 53.8 42.9 47.8 50.6 51.1 51.4 53.8 0.43
Table 2: Accuracy of our models on various benchmarks. 表2: さまざまなベンチマークによるモデルの正確性。 0.78
Throughput is the number of images processed per second on a V100 GPU at batch size 32. スループットとは、バッチサイズ32のV100 GPUで毎秒処理される画像の数である。 0.77
The ViT and ResNet results are reported in [18]. ViTとResNetの結果は[18]に報告されている。 0.68
For ImageNet-C, we keep a resolution of 224 at test time to avoid distorting the corruptions. ImageNet-Cでは、破損の歪みを避けるために、224の解像度をテスト時に保持します。 0.63
7 7 0.85
英語(論文から抽出)日本語訳スコア
tuning procedure brings robustness gains to the original CNNs. チューニング手順は、オリジナルのCNNに堅牢性をもたらす。 0.64
To do so, we consider three benchmarks. そのために、ベンチマークを3つ検討する。 0.55
First, ImageNet-C [49], a dataset containing 15 sets of randomly generated corruptions, grouped into 4 categories: ‘noise’, ‘blur’, ‘weather’, and ‘digital’. まず、imagenet-c [49]は15セットのランダムに生成された腐敗を含むデータセットで、‘noise’、‘blur’、‘weather’、‘digital’の4つのカテゴリに分類される。 0.76
Each corruption type has (cid:27)ve levels of severity, resulting in 75 distinct corruptions. 各汚職の種類は(cid:27)重大度を持ち、75の異なる汚職を引き起こす。 0.61
Second, ImageNet-A [50], a dataset containing naturally “adversarial” examples from ImageNet. 第2に、imagenet-a [50]は、imagenetの自然な“adversarial”サンプルを含むデータセットである。 0.62
Finally, we evaluate robustness to distribution shifts with ImageNet-R [51], a dataset with various stylized “renditions” of ImageNet images ranging from paintings to embroidery, which strongly modify the local image statistics. 最後に,画像の分布変化に対するロバスト性を評価する。ImageNet-R[51]は,絵画から刺刺まで,さまざまなスタイルのImageNetイメージの“再帰”データセットで,局所的な画像統計を強く修正した。 0.72
As shown in Tab. 2 and illustrated in Fig 1, the T-ResNet-RS substantially outperforms the ResNet-RS on all three benchmarks. タブに示すように。 T-ResNet-RSは3つのベンチマークでResNet-RSを大きく上回っている。 0.63
For example, our T-ResNet101-RS reaches similar or higher top-1 accuracy than the ResNet200-RS on each task, despite its lower top-1 accuracy on ImageNet-1k. 例えば、私たちのT-ResNet101-RSは、ImageNet-1kでは低いトップ1の精度にもかかわらず、各タスクにおけるResNet200-RSと似ているか高いトップ1の精度に達します。 0.49
This demonstrates that SA improves robustness more than it improves classi(cid:27)cation accuracy. これは、SAがクラスi(cid:27)の精度を改善するよりもロバスト性を改善することを示す。 0.54
To better understand where the bene(cid:27)ts come from, we decompose the improvement of the TResNet50-RS over the various corruption severeties and categories of ImageNet-C in Fig 3. ベネ(cid:27)tがどこから来たのかをよりよく理解するために、図3のさまざまな汚職問題やImageNet-Cカテゴリに対するTResNet50-RSの改善を分解する。 0.69
We observe that improvement increases almost linearly with corruption severity. 我々は、改善が腐敗の重大さとともにほぼ直線的に増加することを観察する。 0.46
Although performance is higher in all corruption categories, there is a strong variability: the T-CNN shines particularly in tasks where the objects in the image are less sharp due to lack of contrast, bad weather or blurriness. t-cnnは特に、コントラストの欠如、悪天候、ぼやけのために画像内のオブジェクトがシャープでないタスクで輝いています。
訳抜け防止モード: 全ての汚職カテゴリーでパフォーマンスは高いが、強い多様性がある : 特にタスクにおいてT-CNNが輝く 画像の物体は、コントラストの欠如、悪天候、ぼやけなどにより、鋭くありません。
0.65
We attribute this to the ability of SA to distinguish shapes in the image, as investigated in Sec 4. これは、画像中の形状を区別するSAの能力がSec 4で調査されたためである。 0.77
4 Dissecting the Transformed CNNs In this section, we analyze various observables to understand how the representations of a T-ResNet270RS evolve from those of the ResNet270-RS throughout training. 4 本節では,t-resnet270rsの表現がresnet270-rsからトレーニングを通してどのように進化するかを理解するために,様々な観測値を分析した。 0.65
Figure 4: The later layers e(cid:29)ectively escape the convolutional con(cid:27)guration. 図 4: 後の層 e(cid:29) は、畳み込み con(cid:27) を連続的にエスケープします。 0.67
A: top-1 accuracy throughout the 50 epochs of (cid:27)ne-tuning of a T-ResNet270-RS. A: T-ResNet270-RSの50エポック(cid:27)におけるトップ1の精度。 0.72
B: size of the receptive (cid:27)eld of the various heads h (thin lines), calculated as α−1 (see Eq 3). B: 様々なヘッドh(薄い線)の受容体(cid:27)eldのサイズをα−1として計算する(Eq3)。 0.81
Thick lines represent the average over the heads. 太い線は頭の上の平均を表す。 0.74
C: depicts how much attention the various heads h (thin lines) pay to positional information, through the value of σ(λh) (see Eq 7). C: 様々なヘッドh(細い線)がσ(λh)の値を通して位置情報にどれだけ注意を払うかを記述する(Eq 7参照)。 0.86
Thick lines represent the average over the heads. 太い線は頭の上の平均を表す。 0.74
h Unlearn to better relearn In Fig 4A, we display the train and test accuracy throughout training5. H 図4Aでは、トレーニング5を通して列車とテストの正確さを表示します。
訳抜け防止モード: H fig 4a で再学習を改善するため、unlearn 列車と試験の精度は, トレーニング5。
0.79
The dynamics decompose into two distinct phases: accuracy dips down during the learning rate warmup phase ((cid:27)rst 5 epochs of training), then increases back up as the learning rate is decayed. ダイナミクスは2つの異なるフェーズに分解される: 学習率ウォームアップフェーズ((cid:27)rst 5 epochs)の間に精度が低下する。
訳抜け防止モード: 力学は2つの異なる位相に分解される : 学習率ウォームアップフェーズ((cid:27)修業5期)で精度が低下する。 学習率が低下するにつれて 逆戻りします
0.71
Interestingly, as shown in SM. 興味深いことに、SMで示されているように。 0.45
A, the depth of the dip depends on the learning rate. A,ディップの深さは学習率に依存する。 0.64
For too small learning rates, the dip is small, but the test accuracy increases too slowly after the dip; for too large learning rates, the test accuracy increases rapidly after the dip, but the dip is too deep to be compensated for. 学習速度が小さすぎると、ディップは小さすぎるが、テスト精度は小さすぎる; 学習速度が大きすぎると、テスト精度は小さすぎるが、ディップは小さすぎるので補うことができない。
訳抜け防止モード: 学習速度が小さすぎると、ディップは小さくなります。 でも 検査の精度は 急上昇しすぎます 過大な学習率のために 検査精度は 急上昇します しかし、dipは深いので、補償することはできません。
0.63
This suggests that the T-CNN needs to “unlearn” to some extent, a phenomenon reminiscent of the これは、T-CNNがある程度「未学習」する必要があることを示唆している。 0.72
5The train accuracy is lower than the test accuracy due to the heavy data augmentation used during (cid:27)ne-tuning. 5)列車の精度は, (cid:27)ne-tuningで使用する重データ増大による試験精度よりも低い。 0.80
8 02040Epochs657075808 5Top-1 accuracyATestTrain02 040Epochs123Attentio n spanBLayer 0Layer 1Layer 2Layer 302040Epochs0.00.20. 40.60.81.0Positional importanceC 8 02040Epochs657075808 5Top-1精度ATestTrain02040Epoch s123Attention spanBLayer 0Layer 1Layer 2Layer 302040Epochs0.00.20. 40.60.81.0Positional importanceC 0.57
英語(論文から抽出)日本語訳スコア
(a) Input image (b) Attention maps (a)入力画像 (b)注意図 0.74
Figure 5: GPSA layers combine local and global attention in a complementary way. 図5:gpsaレイヤは、ローカルとグローバルの注意を補完的に組み合わせます。 0.69
We depicted the attention maps of the four GPSA layers of the T-ResNet270-RS, obtained by feeding the image on the left through the convolutional backbone, then selecting a query pixel in the center of the image (red box). t-resnet270-rsの4つのgpsa層のアテンションマップを、畳み込みバックボーンを通して左に画像を送り、画像の中央にあるクエリピクセル(レッドボックス)を選択することで表現した。 0.65
For each head h, we indicate the value of the gating parameter σ(λh) in red (see Eq 7). 各頭部 h に対して、赤のゲーティングパラメータ σ(λh) の値を示す(eq 7 を参照)。 0.76
In each layer, at least one of the heads learns to perform content-based attention (σ(λh) = 0). 各層において、少なくとも1つのヘッドがコンテンツに基づく注意(σ(λh) = 0)を学習する。 0.80
“catapult” mechanism of Lewkowycz et al [52] which propels models out of sharp minima to land in wider minima. Lewkowycz et al[52]の“カタパルト”機構は、シャープなミニマからより広いミニマに着陸するモデルを推進している。 0.60
Escaping the convolutional representation In Fig 4B, we show the evolution of the “attention span” 1/αh (see Eq 4), which re(cid:30)ects the size of the receptive (cid:27)eld of attention head h. On average (thick lines), this quantity increases in the (cid:27)rst three layers, showing that the attention span widens, but variability exists among di(cid:29)erent attention heads (thin lines): some broaden their receptive (cid:27)eld, whereas others contract it. 図4bの畳み込み表現から逃れると、re(cid:27)eld of attention head h.平均(thick line)で、この量は(cid:27)rst 3層で増加するが、di(cid:29)erent attention head (thin lines): に変化性が存在することを示している。
訳抜け防止モード: 図4Bの畳み込み表現を逃れる の進化を示す(Eq 4 参照)。 これは、(cid:30) が、(cid:27) の) 注意ヘッドh.平均(太い線) のサイズを再現する。 この量は(cid:27)rstの3つの層で増加します。 しかし、Di(cid:29)erent attention head(薄い線)の間には変動がある。 受容性(cid:27)eldを広げる者もいれば、それを収縮する者もいる。
0.71
In Fig 4C, we show the evolution of the gating parameters λh of Eq 7, which re(cid:30)ect how much attention head h pays to position versus content. 図4cでは、eq7のゲーティングパラメータλhの進化を示し、re(cid:30)はhが位置とコンテンツに対してどれだけの注意を払っているかを示す。 0.63
Interestingly, the (cid:27)rst layer stays strongly convolutional on average, as Ehσ(λh) rapidly becomes close to one (thick blue line). 興味深いことに (cid:27)rst 層は、Ehσ(λh) が急速に 1 に近くなるにつれて、平均的に強い畳み込みが続く。 0.64
The other layers strongly escape locality, with most attention heads focusing on content information at the end of (cid:27)ne-tuning. 他の層は局所性から強く逃れ、ほとんどの注目層は(cid:27)ne-tuningの終わりにコンテンツ情報に焦点を当てている。
訳抜け防止モード: 他の層は局所性から強く逃れる ほとんどの注意は(cid:27)neの最後にコンテンツ情報に焦点を当てます。
0.72
In Fig 5, we display the attention maps after (cid:27)ne-tuning. 図5では(cid:27)ne-tuning後のアテンションマップを表示する。 0.65
A clear divide appears between the “convolutional” attention heads, which remain close to their initialization, and the “content-based” attention heads, which learn more complex dependencies. 初期化に近づいている“進化的な”注目ヘッドと、より複雑な依存関係を学ぶ“コンテントベースの”注目ヘッドの間に明確な隔たりが現れる。 0.75
Notice that the attention head initially focusing on the query pixel (head 5) stays convolutional in all layers. 注意ヘッドは、クエリピクセル(ヘッド5)に最初に焦点を合わせ、すべての層で畳み込みのままであることに注意。 0.63
Throughout the layers, the shape of the central object is more and more clearly visible, as observed in [53]. 層全体を通して、[53]で観察されたように、中央の物体の形状はますますはっきりと見える。 0.72
This supports the hypothesis that robustness gains obtained for blurry corruptions (see Fig 3) are partly due to the ability of the SA layers to isolate objects from the background. これは、ぼやけた腐敗に対してロバスト性が得られるという仮説を支持している(図3)が、部分的にはsa層が背景からオブジェクトを分離する能力によるものである。
訳抜け防止モード: これは、ぼやけた腐敗に対して得られる堅牢性が(図3参照)部分的にsa層の能力によるものであるという仮説を支持する。 オブジェクトを背景から分離する。
0.63
5 When should one start learning the self-attention layers? 5 自己注意層をいつ学習し始めるべきか? 0.84
Previous sections have demonstrated the bene(cid:27)ts of initializing T-CNNs from pre-trained CNNs, a very compelling procedure given the wide availability of pretrained models. 以前のセクションでは、事前訓練されたCNNからT-CNNを初期化するベネ(cid:27)tが示されていた。 0.58
But one may ask: how does this compare to training a hybrid model from scratch? これは、ハイブリッドモデルをスクラッチからトレーニングするのと比べてどうでしょうか? 0.63
More generally, given a computational budget, how long should the SA layers be trained compared to the convolutional backbone? より一般的には、計算予算を考えると、畳み込みバックボーンと比較して、sa層をどれくらいトレーニングすべきか? 0.60
Transformed CNN versus hybrid models To answer the (cid:27)rst question, we consider a ResNet-50 trained on ImageNet for 400 epochs. 変換されたCNNとハイブリッドモデル (cid:27) 質問に答えるために、400エポックでImageNetでトレーニングされたResNet-50を検討する。 0.66
We use SGD with momentum 0.9 and a batch size of 1024, warming up the learning rate for 5 epochs before a cosine decay. 運動量0.9とバッチサイズ1024のSGDを用いて,コサイン崩壊前の5エポックの学習速度を上昇させる。 0.65
To achieve a strong baseline, we use the same augmentation scheme as in [13] for the DeiT. 強いベースラインを達成するために、deitには[13]と同じ拡張スキームを使用します。 0.54
Results are reported in Tab. 結果はタブで報告される。 0.69
3. In this modern training setting, the vanilla ResNet50 reaches a solid performance of 79.04% on ImageNet, well above the 77% usually reported in litterature. 3. このモダンなトレーニング環境では、バニラ ResNet50 は ImageNet で79.04% の確固たる性能に達し、通常は77% を上回っている。 0.82
9 Layer 1()=1.00Head 1()=1.00Head 2()=1.00Head 3()=0.00Head 4()=1.00Head 5()=0.00Head 6()=1.00Head 7()=1.00Head 8()=1.00Head 9Layer 2()=1.00()=0.00()=0.27()=0.00()=1.00()=0.00()=0.02()=0.00()=1.00Layer 3()=1.00()=0.00()=1.00()=0.00()=1.00()=0.00()=0.00()=1.00()=0.00 9 Layer 1()=1.00Head 1()=1.00Head 3()=0.00Head 4()=1.00Head 5()=0.00Head 6()=1.00Head 7()=1.00Head 8()=1.00Head 9Layer 2()=1.00()=0.00()=0.27()=0.00()=0.00()=0.02()=0.00()=1.00Layer 3()=1.00()=0.00()=1.00()=0.00()=0.00()=0.00()=0.00()=0.00()=0.00()=0.00()=0.00()=0.00()=0.00()=0.00()=0.00()=1.00()=0.00()=0.00() =1.00()=0.00() =1.00()=0.00() =1.00()=0.00() =1.00()=0.00 0.62
英語(論文から抽出)日本語訳スコア
Name Vanilla CNN Vanilla CNN↑320 名称 バニラCNN バニラCNN320 0.57
T-CNN T-CNN↑320 Vanilla hybrid T-CNN T-CNN~320 バニラハイブリッド 0.52
T-CNN(cid:63) T-CNN(cid:63) T-CNN(cid:63) T-CNN(cid:63)T-CNN(c id:63)T-CNN(cid:63) 0.61
t1 400 450 400 400 0 100 200 300 t1 400 450 400 400 0 100 200 300 0.94
t2 0 0 50 50 400 300 200 100 t2 0 0 50 50 400 300 200 100 0.94
Train time Top-1 79.04 2.0k mn 2.4k mn 79.78 2.3k mn 79.88 2.7k mn 80.84 79.95 2.8k mn 2.6k mn 80.44 80.28 2.4k mn 2.2k mn 79.28 列車時刻 Top-1 79.04 2.0k mn 2.4k mn 79.78 2.3k mn 79.88 2.7k mn 80.84 79.95 2.8k mn 80.44 80.28 2.4k mn 2.2k mn 79.28 0.50
Table 3: The bene(cid:27)t of late reparametrization. 表3:後期再パラメータ化のbene(cid:27)t。 0.66
We report the top-1 accuracy of a ResNet-50 on ImageNet reparameterized at various times t1 during training. 本稿では,imagenetにおけるresnet-50のtop-1精度について報告する。 0.58
↑320 stands for (cid:27)ne-tuning at resolution 320. 320は (cid:27)ne-tuning at resolution 320の略である。 0.64
The models with a (cid:63) keep the same optimizer after reparametrization, in contrast with the usual T-CNNs. (cid:63) を持つモデルは、通常の T-CNN とは対照的に、再パラメータ化後に同じオプティマイザを保持する。 0.54
The T-CNN obtained by (cid:27)ne-tuning the ResNet for 50 epochs at same resolution obtains a top-1 accuracy of 79.88%, with a 15% increase in training time, and 80.84 as resolution 320, with a 35% increase in training time. 同一解像度で50エポックでResNetをチューニングしたT-CNNは、トップ1の精度が79.88%、トレーニング時間が15%増加し、解像度が80.84、トレーニング時間が35%向上した。 0.68
In comparison, the hybrid model trained for 400 epochs in the same setting only reaches 79.95%, in spite of a 40% increase in training time. 対照的に、同じ設定で400エポックのトレーニングを受けたハイブリッドモデルは、トレーニング時間が40%増加したにもかかわらず、79.95%に達した。
訳抜け防止モード: 比較すると、同じ環境で400エポックで訓練されたハイブリッドモデルはわずか79.95%である。 トレーニング時間が40%増加したにもかかわらず
0.83
Hence, (cid:27)ne-tuning yields better results than training the hybrid model from scratch. したがって、(cid:27)ne-tuningはハイブリッドモデルをスクラッチからトレーニングするよりも良い結果をもたらす。 0.65
What is the best time to reparametrize? リパラメトリゼーションに最適なタイミングは何でしょう? 0.58
We now study a scenario between the two extreme cases: what happens if we reparametrize halfway through training? 私たちは今、この2つの極端なケースの間のシナリオを研究しています。 0.45
To investigate this question in a systematic way, we train the ResNet50 for t1 epochs, then reparametrize and resume training for another t2 epochs, ensuring that t1 + t2 = 400 in all cases. この問題を体系的に調査するために、私たちは t1 epochs に対して ResNet50 をトレーニングし、次に別の t2 epochs に対して再パラメータ化とトレーニングを再開し、すべてのケースにおいて t1 + t2 = 400 を保証します。 0.64
Hence, t1 = 400, amounts to the vanilla ResNet50, whereas t1 = 0 corresponds to the hybrid model trained from scratch. したがって、t1 = 400はバニラResNet50に相当し、t1 = 0はスクラッチから訓練されたハイブリッドモデルに対応する。 0.74
To study how (cid:27)nal performance depends on t1 in a fair setting, we keep the same optimizer and learning rate after the reparametrization, in contrast with the (cid:27)ne-tuning procedure which uses fresh optimizer. 公平な環境での(cid:27)ナル性能がt1にどのように依存するかを研究するため、フレッシュオプティマイザを用いた(cid:27)ネチューニング手順とは対照的に、再パラメータ化後に同じオプティマイザと学習率を保持する。 0.58
Results are presented in Tab. 結果はタブで示されます。 0.73
3. Interestingly, the (cid:27)nal performance evolves non-monotonically, reaching a maximum of 80.44 for t1 = 100, then decreasing back down as the SA layers have less and less time to learn. 3. 興味深いことに、(cid:27)nalのパフォーマンスは単調に進化し、t1 = 100では最大80.44に達する。
訳抜け防止モード: 3. 興味深いことに、(cid:27)ナルのパフォーマンスは非単調に進化し、t1 = 100で最大80.44に達する。 減少するにつれて SA層は学習する時間が少なくなります。
0.78
This non-monotonicity is remarkably similar to that observed in [42], where reparameterizing a CNN as a FCN in the early stages of training enables the FCN to outperform the CNN. この非単調性は[42]で観測されたものと著しく似ており、トレーニングの初期段階でCNNをFCNとして再パラメータ化することで、FCNはCNNよりも優れる。 0.69
Crucially, this result suggests that reparametrizing during training not only saves time, but also helps the T-CNN (cid:27)nd better solutions. この結果は、トレーニング中の再パラメータ化が時間を節約するだけでなく、T-CNN(cid:27)のより良い解に役立つことを示唆している。 0.59
Discussion In this work, we showed that complex building blocks such as self-attention layers need not be trained from start. 議論 この研究で我々は、自己注意層のような複雑なビルディングブロックを最初からトレーニングする必要はないことを示した。 0.66
Instead, one can save in compute time while gaining in performance and robustness by initializing them from pre-trained convolutional layers. 代わりに、事前訓練された畳み込み層から初期化することで、パフォーマンスと堅牢性を確保しながら計算時間を節約できる。 0.70
At a time where energy savings and robustness are key stakes, we believe this (cid:27)nding is important. 省エネと堅牢性が重要な課題である今、この(cid:27)ndingが重要だと考えています。 0.66
On the practical side, our (cid:27)ne-tuning method o(cid:29)ers an interesting new direction for practitioners. 実践面では、(cid:27)ne-tuning法o(cid:29)は実践者にとって興味深い新たな方向性を示す。 0.65
One clear limitation of our method is the prohibitive cost of reparametrizing the early stages of CNNs. この手法の明確な限界は、cnnの初期段階の再パラメータ化の禁止コストである。 0.59
This cost could however be alleviated by using linear attention methods [21], an important direction for future work. しかし、このコストは、今後の作業にとって重要な方向である線形注意法[21]を用いることで軽減できる。
訳抜け防止モード: しかし このコストは 線形注意法[21]を使うことは,今後の作業にとって重要な方向である。
0.78
Note also that while our T-CNNs signi(cid:27)cantly improve the robustness of CNNs, they do not systematically reach the performance of end-to-end Transformers such as the DeiT (for example on ImageNet-C, see Fig 1). また、我々のT-CNNs signi(cid:27)はCNNの堅牢性を改善することができるが、DeiTのようなエンドツーエンドのトランスフォーマーのパフォーマンスには体系的に到達しない(例えば、ImageNet-CではFig 1)。 0.64
Bridging this gap is an important next step for hybrid models. このギャップを埋めることは、ハイブリッドモデルの次の重要なステップである。 0.63
On the theoretical side, our results spark several interesting questions. 理論的には、この結果はいくつかの興味深い疑問を提起する。 0.44
First, why is it better to reparametrize at intermediate times? まず、なぜ中間時間で再パラメータ化した方がよいのか? 0.59
One natural hypothesis, which will be explored in future work, is 将来の研究で探求される自然仮説の一つは、 0.72
10 10 0.85
英語(論文から抽出)日本語訳スコア
that SA layers bene(cid:27)t from capturing meaningful dependencies between the features learnt by the CNN, rather than the random correlations which exist at initialization. SA層は、初期化時に存在するランダムな相関ではなく、CNNによって学習された特徴間の有意義な依存関係を捉えない(cid:27)。 0.68
Second, why are the representations learnt by the SA layers more robust? 第二に、なぜSA層によって学習された表現がより堅牢になるのか? 0.56
By inspecting the attention maps and the most improved corruption categories of ImageNet-C, we hypothesized that SA helps isolating objects from the background, but a more thorough analysis is yet to come. ImageNet-Cの注目マップと最も改善された汚職カテゴリを調べることで、SAは背景からオブジェクトを分離するのに役立つと仮定するが、より詳細な分析はまだ行われていない。 0.68
Acknowledgements We thank Matthew Leavitt, Hugo Touvron, Hervé Jégou and Francisco Massa for helpful discussions. 私たちはmatthew leavitt氏、hugo touvron氏、hervé jégou氏、francisco massa氏に感謝します。
訳抜け防止モード: 謝辞 Matthew Leavitt, Hugo Touvron, Hervé Jégou そしてFrancisco Massaは、有益な議論を行う。
0.77
SD and GB acknowledge funding from the French government under management of Agence Nationale de la Recherche as part of the “Investissements d’avenir” program, reference ANR-19-P3IA-0001 (PRAIRIE 3IA Institute). SDとGBは、Agence Nationale de la Rechercheの管理下にあるフランス政府から「Investissements d’avenir」プログラムの一環として、ANR-19-P3IA-0001(PRA IRIE 3IA Institute)への資金提供を受けている。
訳抜け防止モード: SDとGBは、Agence Nationale de la Rechercheの管理下にあるフランス政府からの資金提供を認めている。 ANR-19-P3IA-0001 (PRAIRIE 3IA Institute )を参照。
0.72
References 1. Krizhevsky, A., Sutskever, I. 第1回参照。 krizhevsky, a., sutskever, i. 0.59
& Hinton, G. E. Imagenet classi(cid:27)cation with deep convolutional neural Hinton, G. E. Imagenet classi(cid:27)cation with Deep Convolutional Neural 0.91
networks. Communications of the ACM 60, 84–90 (2017). ネットワーク。 ACM 60, 84-90 (2017) の通信。 0.76
2. LeCun, Y., Bottou, L., Bengio, Y. 2. LeCun, Y., Bottou, L., Bengio, Y。 0.84
& Ha(cid:29)ner, P. Gradient-based learning applied to document &Ha(cid:29)ner, P. Gradient-based learning application to document 0.82
recognition. Proceedings of the IEEE 86, 2278–2324 (1998). 認識 IEEE 86, 2278–2324 (1998) の略。 0.60
3. LeCun, Y. et al Backpropagation applied to handwritten zip code recognition. 3. LeCun, Y. et al Backpropagationは手書きのzip符号認識に適用される。 0.79
Neural computation 1, 541–551 (1989). 神経計算 1, 541–551 (1989). 0.78
Scherer, D., Müller, A. Scherer, D., Müller, A。 0.81
& Behnke, S. Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition en. & behnke, s. オブジェクト認識のための畳み込みアーキテクチャにおけるプール操作の評価 0.82
in Arti(cid:27)cial Neural Networks – ICANN 2010 (eds Diamantaras, K., Duch, W. & Iliadis, L. S.) (Springer, Berlin, Heidelberg, 2010), 92–101. in Arti (cid:27)cial Neural Networks – ICANN 2010 (eds Diamantaras, K., Duch, W. & Iliadis, L. S.) (Springer, Berlin, Heidelberg, 2010), 92–101。 0.97
Schmidhuber, J. Schmidhuber, J。 0.80
Deep learning in neural networks: An overview. ニューラルネットワークにおけるディープラーニング: 概要。 0.70
en. Neural Networks 61, 85–117. エン ニューラルネットワーク 61, 85-117。 0.54
http://www.sciencedi rect.com/science/art icle/pii/S0893608014 002135 (2021) (Jan. 2015). http://www.sciencedi rect.com/science/art icle/pii/S0893608014 002135 (2021) (2015年9月) 0.45
4. 5. 6. Goodfellow, I., Bengio, Y. 4. 5. 6. Goodfellow, I., Bengio, Y。 0.84
& Courville, A. Courville, A。 0.61
Deep Learning (MIT Press, 2016). Deep Learning (MIT Press, 2016)。 0.79
7. Bahdanau, D., Cho, K. & Bengio, Y. Neural machine translation by jointly learning to align and 7. bahdanau, d., cho, k. & bengio, y. neural machine translation by jointly learning to alignment and 0.83
translate. arXiv preprint arXiv:1409.0473 (2014). 訳して arXiv preprint arXiv:1409.0473 (2014)。 0.65
8. Vaswani, A. et al Attention is all you need in Advances in neural information processing systems 8. Vaswani, A. et al Attentionは神経情報処理システムの進歩に必要なもの 0.83
(2017), 5998–6008. (2017), 5998–6008. 0.97
9. Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. Bert: Pre-training of deep bidirectional trans- 9. devlin, j., chang, m.-w., lee, k. & toutanova, k. bert: pre-training of deep bidirectional trans- 0.80
formers for language understanding. arXiv preprint arXiv:1810.04805 (2018). 元は言語理解者。 arXiv preprint arXiv:1810.04805 (2018)。 0.75
10. Ramachandran, P. et al Stand-alone self-attention in vision models. 10. Ramachandran, P. et al Stand-alone self-attention in vision model。 0.79
arXiv preprint arXiv:1906.05909 arXiv preprint arXiv:1906.05909 0.59
(2019). 11. (2019). 11. 0.85
Zhao, H., Jia, J. Zhao, H., Jia, J。 0.81
& Koltun, V. Exploring self-attention for image recognition in Proceedings of the koltun, v. study self-attention for image recognition in proceedings of the. 0.71
IEEE/CVF Conference on Computer Vision and Pattern Recognition (2020), 10076–10085. IEEE/CVF Conference on Computer Vision and Pattern Recognition (2020), 10076–10085 0.92
12. Dosovitskiy, A. et al An Image is Worth 16x16 Words: Transformers for Image Recognition at 12. Dosovitskiy, A. et al Image is Worth 16x16 Words: Transformers for Image Recognition at 0.89
Scale. arXiv preprint arXiv:2010.11929 (2020). スケール。 arXiv preprint arXiv:2010.11929 (2020)。 0.72
13. Touvron, H. et al Training data-e(cid:28)cient image transformers & distillation through attention. 13. touvron, h. et al training data-e(cid:28)cient image transformers & distillation through attention 0.88
arXiv preprint arXiv:2012.12877 (2020). arXiv arXiv:2012.12877 (2020) 0.81
14. Wu, B. et al Visual Transformers: Token-based Image Representation and Processing for Computer Vision. 14. Wu, B. et al Visual Transformers: コンピュータビジョンのためのトークンベースの画像表現と処理。 0.85
arXiv:2006.03677 [cs, eess]. arXiv:2006.03677 [cs, eess] 0.79
arXiv: 2006.03677. http://arxiv.org/abs /2006.03677 (2020) (July 2020). arXiv: 2006.03677. http://arxiv.org/abs /2006.03677 (2020) (2020年7月) 0.59
15. Touvron, H., Cord, M., Sablayrolles, A., Synnaeve, G. & Jégou, H. Going deeper with Image Trans- 15. Touvron, H., Cord, M., Sablayrolles, A., Synnaeve, G. & Jégou, H. Going deeper with Image Trans- 0.90
formers. arXiv preprint arXiv:2103.17239 (2021). 元。 arXiv preprint arXiv:2103.17239 (2021)。 0.63
16. Liu, Z. et al Swin transformer: Hierarchical vision transformer using shifted windows. 16. Liu, Z. et al Swin transformer: シフトウィンドウを使った階層型視覚変換器。 0.82
arXiv preprint arXiv:2103.14030 (2021). arXiv arXiv:2103.14030 (2021) 0.80
11 11 0.85
英語(論文から抽出)日本語訳スコア
17. Heo, B. et al Rethinking spatial dimensions of vision transformers. 17. Heo, B. et al rethinking space dimensions of vision transformer。 0.85
arXiv preprint arXiv:2103.16302 arXiv preprint arXiv:2103.16302 0.59
(2021). 18. (2021). 18. 0.85
Bhojanapalli, S. et al Understanding robustness of transformers for image classi(cid:27)cation . Bhojanapalli, S. et al understand robustness of transformer for image classi (cid:27)cation。 0.93
arXiv preprint arXiv:2103.14586 (2021). arXiv arXiv:2103.14586 (2021) 0.79
19. Mao, X. et al Rethinking the Design Principles of Robust Vision Transformer. 19. Mao, X. et al Rethinking the Design Principles of Robust Vision Transformer (英語) 0.86
arXiv preprint arXiv プレプリント 0.83
arXiv:2105.07926 (2021). arXiv:2105.07926 (2021)。 0.67
20. Bello, I. Lambdanetworks: Modeling long-range interactions without attention. 20. Bello, I. Lambdanetworks: 注意せずに長距離インタラクションをモデリングする。 0.72
arXiv preprint arXiv プレプリント 0.83
arXiv:2102.08602 (2021). arXiv:2102.08602 (2021)。 0.67
21. Wang, S., Li, B., Khabsa, M., Fang, H. & Ma, H. L. Self-Attention with Linear Complexity. 21. Wang, S., Li, B., Khabsa, M., Fang, H. & Ma, H. L. Self-Attention with Linear Complexity 0.91
arXiv preprint arXiv:2006.04768 (2020). arXiv arXiv:2006.04768 (2020) 0.80
22. Choromanski, K. et al Rethinking attention with performers. 22. Choromanski, K. et al Rethinking attention with performers。 0.86
arXiv preprint arXiv:2009.14794 (2020). arXiv preprint arXiv:2009.14794 (2020)。 0.75
23. Katharopoulos, A., Vyas, A., Pappas, N. & Fleuret, F. Transformers are rnns: Fast autoregressive transformers with linear attention in International Conference on Machine Learning (2020), 5156– 5165. 23. Katharopoulos, A., Vyas, A., Pappas, N. & Fleuret, F. Transformers are rnns: Fast autoregressive transformers with linear attention in International Conference on Machine Learning (2020), 5156–5165。 0.87
24. Zhang, J. et al Why are Adaptive Methods Good for Attention Models? 24. Zhang, J. et al なぜアダプティブメソッドは注意モデルに良いのか? 0.83
arXiv preprint arXiv:1912.03194 arXiv preprint arXiv:1912.03194 0.59
(2019). 25. (2019). 25. 0.85
Liu, L., Liu, X., Gao, J., Chen, W. & Han, J. Liu, L., Liu, X., Gao, J., Chen, W. & Han, J. 0.89
Understanding the di(cid:28)culty of training transformers. トレーニングトランスのディ(cid:28)能力を理解する。 0.68
arXiv preprint arXiv:2004.08249 (2020). arXiv preprint arXiv:2004.08249 (2020)。 0.75
26. Hinton, G., Vinyals, O. 26. Hinton, G., Vinyals, O。 0.83
& Dean, J. Distilling the knowledge in a neural network. and dean, j. ニューラルネットワークで知識を蒸留する。 0.64
arXiv preprint arXiv プレプリント 0.83
arXiv:1503.02531 (2015). arxiv:1503.02531 (2015)。 0.44
Jiang, Z. et al Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet 2021. arXiv: 2104.10858 [cs.CV]. Jiang, Z. et al Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet 2021. arXiv: 2104.10858 [cs.CV] 0.87
27. 28. Graham, B. et al LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference. 27. 28. Graham, B. et al LeViT: ConvNet's Clothing for Faster Inferenceにおけるビジョントランスフォーマー。 0.86
arXiv preprint arXiv:2104.01136 (2021). arXiv arXiv:2104.01136 (2021) 0.80
29. Chen, Y., Kalantidis, Y., Li, J., Yan, S. & Feng, J. A2-Nets: Double Attention Networks. 29. Chen, Y., Kalantidis, Y., Li, J., Yan, S. & Feng, J. A2-Nets: Double Attention Networks 0.91
arXiv preprint arXiv プレプリント 0.83
arXiv:1810.11579 (2018). arXiv:1810.11579 (2018)。 0.68
30. Bello, I., Zoph, B., Vaswani, A., Shlens, J. 30. Bello, I., Zoph, B., Vaswani, A., Shlens, J. 0.85
& Le, Q. V. Attention augmented convolutional networks in & Le, Q. V. Attention augmented convolutional network in 0.98
Proceedings of the IEEE International Conference on Computer Vision (2019), 3286–3295. IEEE International Conference on Computer Vision (2019), 3286–3295 に参加。 0.80
31. Chen, Z. et al Visformer: The Vision-friendly Transformer 2021. arXiv: 2104.12533 [cs.CV]. 31. Chen, Z. et al Visformer: The Vision- friendly Transformer 2021. arXiv: 2104.12533 [cs.CV] 0.85
32. Srinivas, A. et al Bottleneck Transformers for Visual Recognition. 32. Srinivas, A. et al Bottleneck Transformers for Visual Recognition 0.83
arXiv e-prints, arXiv:2101.11605. arXiv: 2101.11605 [cs.CV] (Jan. 2021). arXiv e-prints, arXiv:2101.11605. arXiv:2101.11605 [cs.CV] (Jan. 2021) 0.68
33. Carion, N. et al End-to-End Object Detection with Transformers. 33. Carion, N. et al End-to-End Object Detection with Transformer 0.83
arXiv preprint arXiv:2005.12872 arXiv preprint arXiv:2005.12872 0.59
(2020). 34. (2020). 34. 0.85
Hu, H., Gu, J., Zhang, Z., Dai, J. Hu, H., Gu, J., Zhang, Z., Dai, J 0.78
& Wei, Y. Relation networks for object detection in Proceedings of the & Wei, Y。 過程における物体検出のための関係ネットワーク 0.82
IEEE Conference on Computer Vision and Pattern Recognition (2018), 3588–3597. IEEE Conference on Computer Vision and Pattern Recognition (2018), 3588–3597 0.83
35. Chen, Y.-C. et al Uniter: Universal image-text representation learning in European Conference on 35. Chen, Y.-C. et al Uniter: European Conference on Europeでのユニバーサルイメージテキスト表現学習 0.82
Computer Vision (2020), 104–120. コンピュータビジョン(2020年)、104-120。 0.75
36. Locatello, F. et al Object-centric learning with slot attention. 36. findllo, f. et al object-centric learning with slot attention。 0.81
arXiv preprint arXiv:2006.15055 (2020). arXiv preprint arXiv:2006.15055 (2020)。 0.76
37. Sun, C., Myers, A., Vondrick, C., Murphy, K. & Schmid, C. Videobert: A joint model for video and language representation learning in Proceedings of the IEEE International Conference on Computer Vision (2019), 7464–7473. 37. Sun, C., Myers, A., Vondrick, C., Murphy, K. & Schmid, C. Videobert: Proceedings of the IEEE International Conference on Computer Vision (2019), 7464–7473におけるビデオおよび言語表現学習のジョイントモデル。 0.87
38. d’Ascoli, S. et al Convit: Improving vision transformers with soft convolutional inductive biases. 38. d'Ascoli, S. et al Convit: ソフトな畳み込み誘導バイアスによるビジョントランスフォーマーの改善。 0.73
arXiv preprint arXiv:2103.10697 (2021). arXiv preprint arXiv:2103.10697 (2021) 0.80
39. Wu, H. et al Cvt: Introducing convolutions to vision transformers. 39. Wu, H. et al Cvt: ビジョントランスフォーマーに畳み込みを導入すること。 0.79
arXiv preprint arXiv:2103.15808 arXiv preprint arXiv:2103.15808 0.59
(2021). 12 (2021). 12 0.85
英語(論文から抽出)日本語訳スコア
40. Yuan, K. et al Incorporating Convolution Designs into Visual Transformers. 40. Yuan, K. et al Incorporating Convolution Designs into Visual Transformers 0.83
arXiv preprint arXiv:2103.11816 arXiv preprint arXiv:2103.11816 0.59
(2021). 41. (2021). 41. 0.85
Cordonnier, J.-B., Loukas, A. Cordonnier, J.-B., Loukas, A. 0.96
& Jaggi, M. On the relationship between self-attention and convolu- jaggi, m. on the relationship between self-attention and convolu- 0.79
tional layers. arXiv preprint arXiv:1911.03584 (2019). 任意の層です arXiv preprint arXiv:1911.03584 (2019) 0.70
42. d’Ascoli, S., Sagun, L., Biroli, G. & Bruna, J. 42. D'Ascoli, S., Sagun, L., Biroli, G. & Bruna, J. 0.93
Finding the Needle in the Haystack with Convolutions: on the bene(cid:27)ts of architectural bias in Advances in Neural Information Processing Systems (2019), 9334–9345. 進化を伴うHaystackの針を見つける:ニューラル情報処理システムにおけるアドバンスにおけるアーキテクチャバイアスのベーン(cid:27)ts(2019), 9334–9345。 0.75
43. Wen, W., Yan, F., Chen, Y. 43. Wen, W., Yan, F., Chen, Y。 0.84
& Li, H. Autogrow: Automatic layer growing in deep convolutional networks in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (2020), 833–841. & li, h. autogrow: automatic layer growing in deep convolutional networks in the 26th acm sigkdd international conference on knowledge discovery & data mining (2020), 833–841 (英語) 0.82
Shaw, P., Uszkoreit, J. Shaw, P., Uszkoreit, J。 0.82
& Vaswani, A. Self-attention with relative position representations. And Vaswani, A. self-attention with relative position representations 0.86
arXiv preprint arXiv:1803.02155 (2018). arXiv preprint arXiv:1803.02155 (2018)。 0.77
44. 45. He, K., Zhang, X., Ren, S. & Sun, J. 44. 45. He, K., Zhang, X., Ren, S. & Sun, J。 0.86
Deep residual learning for image recognition in Proceedings of the 手続き過程における画像認識のための深い残差学習 0.79
IEEE conference on computer vision and pattern recognition (2016), 770–778. IEEE Conference on Computer Vision and Pattern Recognition (2016), 770–778。 0.83
46. Touvron, H., Vedaldi, A., Douze, M. & Jégou, H. Fixing the train-test resolution discrepancy. 46. touvron, h., vedaldi, a., douze, m. & jégou, h. train-test resolution discrepancyの修正。 0.82
arXiv preprint arXiv:1906.06423 (2019). arXiv arXiv:1906.06423 (2019) 0.81
47. Bello, I. et al Revisiting ResNets: Improved Training and Scaling Strategies. 47. Bello, I. et al Revisiting ResNets: Improved Training and Scaling Strategies。 0.87
arXiv preprint arXiv:2103.07579 arXiv preprint arXiv:2103.07579 0.59
(2021). 48. (2021). 48. 0.85
Wightman, R. PyTorch Image Models https : / / github . Wightman, R. PyTorch Image Models https : / / github 0.81
com / rwightman / pytorch - image - pic.com / rwightman / pytorch - image - 0.86
models. 2019. モデル。 2019. 0.79
49. Hendrycks, D. & Dietterich, T. Benchmarking Neural Network Robustness to Common Corruptions and Perturbations. 49. Hendrycks, D. & Dietterich, T. Benchmarking Neural Network Robustness to Common Corruptions and Perturbations 0.85
Proceedings of the International Conference on Learning Representations (2019). the international conference on learning representations (2019) 開催。 0.68
50. Hendrycks, D., Zhao, K., Basart, S., Steinhardt, J. 50. Hendrycks, D., Zhao, K., Basart, S., Steinhardt, J。 0.84
& Song, D. Natural Adversarial Examples. & Song, D. Natural Adversarial Examples 0.78
CVPR (2021). CVPR (2021). 0.85
51. Hendrycks, D. et al The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution 51. Hendrycks, D. et al The Many Faces of Robustness: A critical Analysis of Out-of-Distribution 0.88
Generalization. arXiv preprint arXiv:2006.16241 (2020). 一般化。 arXiv preprint arXiv:2006.16241 (2020)。 0.70
52. Lewkowycz, A., Bahri, Y., Dyer, E., Sohl-Dickstein, J. 52. Lewkowycz, A., Bahri, Y., Dyer, E., Sohl-Dickstein, J. 0.90
& Gur-Ari, G. The large learning rate phase gur-ari,g. 大規模学習率フェーズ 0.63
of deep learning: the catapult mechanism. 深層学習:カタパルト機構です 0.49
arXiv preprint arXiv:2003.02218 (2020). arXiv preprint arXiv:2003.02218 (2020)。 0.75
53. Caron, M. et al Emerging properties in self-supervised vision transformers. 53. 自己教師型視覚変換器におけるCaron, M. et al Emerging特性 0.70
arXiv preprint arXiv:2104.14294 arXiv preprint arXiv:2104.14294 0.59
(2021). 54. (2021). 54. 0.85
He, T. et al Bag of tricks for image classi(cid:27)cation with convolutional neural networks in Proceedings of He, T. et al Bag of trick for image classi(cid:27)cation with convolutional neural network in Proceedings of Proceedings 0.98
the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2019), 558–567. IEEE/CVF Conference on Computer Vision and Pattern Recognition (2019), 558-567。 0.90
13 13 0.85
英語(論文から抽出)日本語訳スコア
A Changing of learning rate As shown in Fig 4 of the main text, the learning dynamics decompose into two phases: the learning rate warmup phase, where the test loss drops, then the learning rate decay phase, where the test loss increases again. 主文の図4に示すように、学習速度の変化により、学習ダイナミクスは、テスト損失が減少する学習率ウォームアップフェーズと、テスト損失が再び増加する学習率減衰フェーズの2つのフェーズに分解される。
訳抜け防止モード: 本文図4に示すように、学習率の変化 学習のダイナミクスは2つのフェーズに分解される:学習速度ウォームアップフェーズ テストの損失が減少し、学習率の低下フェーズが発生します。 テストの損失が再び増加するのです。
0.80
This could lead one to think that the maximal learning rate is too high, and the dip could be avoided by choosing a lower learning rate. これにより、最大学習率が高すぎると考え、低い学習率を選択することでディップを回避することができる。 0.64
Yet this is not the case, as shown in Fig 6. しかし、図6に示すように、これはそうではない。 0.81
Reducing the maximal learning rate indeed reduces the dip, but it also slows down the increase in the second phase of learning. 最大学習率の低下は、実際には減退を減少させるが、学習の第2フェーズの増加を遅らせる。 0.69
This con(cid:27)rms that the model needs to “unlearn” the right amount to (cid:27)nd better solutions. このcon(cid:27)rmは、モデルが適切な量を(cid:27)より優れたソリューションに“解き放つ”必要があることを証明します。 0.64
Figure 6: The larger the learning rate, the lower the test accuracy dips, but the faster it climbs back up. 図6: 学習率が大きくなるほど、テストの精度は低下するが、その速度は上昇する。 0.66
We show the dynamics of the ResNet50, (cid:27)ne-tuned for 50 epochs at resolution 224, for three di(cid:29)erent values of the maximal learning rate. ResNet50(cid:27)は,最大学習率の3つのDi(cid:29)erent値に対して,解像度224で50エポックで調整された。 0.69
B Changing the test resolution One advantage of the GPSA layers introduced by [38] is how easily they adapt to di(cid:29)erent image resolutions. B テスト解像度を変更する [38] で導入された GPSA レイヤの利点は、Di(cid:29) 画像解像度への適応がいかに容易かである。 0.78
Indeed, the positional embeddings they use are (cid:27)xed rather than learnt. 実際、彼らが使用する位置埋め込みは学習するよりも(cid:27)xedである。 0.67
They simply consist in 3 values for each pair of pixels: their euclidean distance (cid:107)δ(cid:107), as well as their coordinate distance δ1, δ2 (see Eq 4). それらは単にそれぞれのピクセルのペアに対して3つの値からなる: ユークリッド距離 (cid:107)δ(cid:107) と座標距離 δ1, δ2 (eq 4を参照)。 0.84
Our implementation automatically adjusts these embeddings to the input image, allowing us to change the test resolution seamlessly. 実装は入力画像への埋め込みを自動的に調整し、テスト解像度をシームレスに変更できます。 0.66
In Fig 7, we show how the top-1 accuracies of our T-ResNet-RS models compares to those of the ResNet-RS models (cid:27)netuned at same resolution but without SA. 図7では、T-ResNet-RSモデルのトップ1の精度が、同じ解像度で接続されたResNet-RSモデル(cid:27)と比較されている。 0.68
At test resolution 416, our TResNetRS-350 reaches an impressive top-1 accuracy of 84.9%, beyond those of the best E(cid:28)cientNets and BotNets [32]. テストレゾリューション416では、私たちのTResNetRS-350が、最高のE(cid:28)cientNetsとBotNets [32]よりも、84.9%という印象的なトップ1の精度に達した。
訳抜け防止モード: テスト解像度416では、TResNetRS-350が84.9%という驚くべきトップ1の精度に達した。 E(cid:28)cientNets と BotNets [32 ]
0.80
C Changing the number of epochs In Tab. C タブ内のエポックの数を変更する。 0.72
4, we show how the top-1 accuracy of the T-ResNet-RS model changes with the number of (cid:27)ne-tuning epochs. The top-1 accuracy of the T-ResNet-RS model with the number of (cid:27)ne-tuning epochs。 0.67
As expected, performance increases signi(cid:27)cantly as we (cid:27)ne-tune for longer, yet we chose to set a maximum of 50 (cid:27)ne-tuning epochs to keep the computational cost of (cid:27)ne-tuning well below that of the original training. 期待どおり、シグニ(cid:27)ネチューンが長いほど性能が向上するが、計算コストが(cid:27)ネチューンを元のトレーニングよりもかなり低く抑えるために、最大50(cid:27)ネチューンエポックを設定することにした。 0.71
D Changing the architecture Our framework, which builds on the timm package, makes changing the original CNN architecture very easy. アーキテクチャの変更 timmパッケージ上に構築された私たちのフレームワークは、オリジナルのcnnアーキテクチャを非常に簡単に変更できます。 0.69
We applied our (cid:27)ne-tuning procedure to the ResNet-D models [54] with the exact same hyperparameters, and observed substantial performance gains, similar to the ones obtained for ResNetRS, see Tab. 全く同じハイパーパラメータを持つresnet-dモデル [54] に(cid:27)ne-tuningプロシージャを適用し、resnetrで得られたものと同様の実質的なパフォーマンス向上を観測しました。 0.71
5. This suggests the wide applicability of our method. 5. これは我々の手法の幅広い適用性を示している。 0.73
14 01020304050Epochs67. 570.072.575.077.580. 0Top-1 accuracylr = 0.0001lr = 0.0002lr = 0.0005 14 01020304050epochs67. 570.072.575.077.580. 0top-1 accuracylr = 0.0001lr = 0.0002lr = 0.0005 0.58
英語(論文から抽出)日本語訳スコア
Figure 7: Performance at di(cid:29)erent test-time resolutions, for the (cid:27)netuned models with and without SA. 図7: SA のない (cid:27) ネットモデルの場合、di(cid:29) の繰り返しテスト時間分解能のパフォーマンス。 0.79
The ResNet50-RS and ResNet101-RS models are (cid:27)netuned at resolution 224, and all other models are (cid:27)netuned at resolution 320. ResNet50-RSとResNet101-RSは解像度224で接続され、その他の全てのモデルは解像度320で接続される。 0.74
Model ResNet50-RS T-ResNet50-RS T-ResNet50-RS T-ResNet50-RS ResNet101-RS T-ResNet101-RS T-ResNet101-RS T-ResNet101-RS モデル ResNet50-RS T-ResNet50-RS T-ResNet50-RS T-ResNet50-RS T-ResNet101-RS T-ResNet101-RS T-ResNet101-RS T-ResNet101-RS 0.51
Epochs Top-1 acc Epochs Top-1 acc 0.78
0 10 20 50 0 10 20 50 0 10 20 50 0 10 20 50 0.85
79.91 80.11 80.51 81.02 81.70 81.54 81.90 82.39 79.91 80.11 80.51 81.02 81.70 81.54 81.90 82.39 0.42
Table 4: Longer (cid:27)ne-tuning increases (cid:27)nal performance. 表4: より長い (cid:27) チューニングでパフォーマンスが向上する (cid:27)。 0.68
We report the top-1 accuracies of our models on ImageNet-1k at resolution 224. 我々はImageNet-1kのモデルトップ1の精度を解像度224で報告する。 0.65
Model T-ResNet50-D T-ResNet101-D T-ResNet152-D T-ResNet200-D T-ResNet50-RS T-ResNet101-RS T-ResNet152-RS T-ResNet200-RS モデル T-ResNet50-D T-ResNet151-D T-ResNet200-D T-ResNet50-RS T-ResNet101-RS T-ResNet152-RS T-ResNet200-RS 0.52
Original res. オリジナルのres。 0.75
Original acc. Fine-tune res. オリジナルacc。 ファインチューン。 0.48
224 320 320 320 160 192 256 256 224 320 320 320 160 192 256 256 0.85
80.6 82.3 83.1 83.2 78.8 81.2 83.0 83.4 80.6 82.3 83.1 83.2 78.8 81.2 83.0 83.4 0.42
320 384 384 384 224 224 320 320 320 384 384 384 224 224 320 320 0.85
Fine-tune acc. Gain +1.0 +0.8 +0.7 +0.7 +2.8 +1.2 +0.7 +0.6 精巧なacc。 Gain +1.0 +0.8 +0.7 +0.7 +2.8 +1.2 +0.7 +0.6 0.44
81.6 83.1 83.8 83.9 81.0 82.4 83.7 84.0 81.6 83.1 83.8 83.9 81.0 82.4 83.7 84.0 0.42
Table 5: Comparing the performance gains of the ResNet-RS and ResNet-D architectures. 表5: ResNet-RSとResNet-Dアーキテクチャのパフォーマンス向上を比較する。 0.78
Top1 accuracy is measured on ImageNet-1k validation set. トップ1の精度はImageNet-1k検証セットで測定される。 0.59
The pre-trained models are all taken from the timm library [48]. トレーニング済みのモデルは、すべてtimmライブラリ[48]から取り出されています。 0.68
15 16019222425628832035 2384416Test resolution7678808284 Top-1 accuracyResNetRS-50R esNetRS-101ResNetRS- 152ResNetRS-200ResNe tRS-270ResNetRS-350T -ResNetRS-50T-ResNet RS-101T-ResNetRS-152 T-ResNetRS-200T-ResN etRS-270T-ResNetRS-3 50 15 16019222425628282323 84416Test resolution7678808284 Top-1 accuracyResNetRS-50R esNetRS-101ResNetRS- 152ResNetRS-200ResNe tRS-270ResNetRS-350T -ResNetRS-50T-ResNet RS-101T-ResNetRS-152 T-ResNetRS-200T-ResN etRS-270T-ResNetRS-3 50 0.47
英語(論文から抽出)日本語訳スコア
E More attention maps E より注意深い地図 0.78
(a) Attention maps Figure 8: GPSA layers combine local and global attention in a complementary way. (a)注意図 図8:gpsaレイヤは、ローカルとグローバルの注意を補完的に組み合わせます。 0.66
We depicted the attention maps of the four GPSA layers of the T-ResNet270-RS, obtained by feeding the image on the left through the convolutional backbone, then selecting a query pixel in the center of the image (red box). t-resnet270-rsの4つのgpsa層のアテンションマップを、畳み込みバックボーンを通して左に画像を送り、画像の中央にあるクエリピクセル(レッドボックス)を選択することで表現した。 0.65
For each head h, we indicate the value of the gating parameter σ(λh) in red (see Eq 7). 各頭部 h に対して、赤のゲーティングパラメータ σ(λh) の値を示す(eq 7 を参照)。 0.76
(σ(λh) = 0). (σ(λh) = 0)。 0.85
(b) Attention maps 16 Layer 1()=1.00Head 1()=1.00Head 2()=1.00Head 3()=0.00Head 4()=1.00Head 5()=0.00Head 6()=1.00Head 7()=1.00Head 8()=1.00Head 9Layer 2()=1.00()=0.00()=0.27()=0.00()=1.00()=0.00()=0.02()=0.00()=1.00Layer 3()=1.00()=0.00()=1.00()=0.00()=1.00()=0.00()=0.00()=1.00()=0.00Layer 4()=0.26()=0.00()=0.42()=0.00()=1.00()=0.00()=0.00()=1.00()=0.00Layer 1()=1.00Head 1()=1.00Head 2()=1.00Head 3()=0.00Head 4()=1.00Head 5()=0.00Head 6()=1.00Head 7()=1.00Head 8()=1.00Head 9Layer 2()=1.00()=0.00()=0.27()=0.00()=1.00()=0.00()=0.02()=0.00()=1.00Layer 3()=1.00()=0.00()=1.00()=0.00()=1.00()=0.00()=0.00()=1.00()=0.00Layer 4()=0.26()=0.00()=0.42()=0.00()=1.00()=0.00()=0.00()=1.00()=0.00 (b)注意図 16 Layer 1()=1.00Head 1()=1.00Head 2()=1.00Head 3()=0.00Head 4()=1.00Head 5()=0.00Head 6()=1.00Head 7()=1.00Head 8()=1.00Head 9Layer 2()=1.00()=0.00()=0.27()=0.00()=1.00()=0.00()=0.02()=0.00()=1.00Layer 3()=1.00()=0.00()=1.00()=0.00()=1.00()=0.00()=0.00()=1.00()=0.00Layer 4()=0.26()=0.00()=0.42()=0.00()=1.00()=0.00()=0.00()=1.00()=0.00Layer 1()=1.00Head 1()=1.00Head 2()=1.00Head 3()=0.00Head 4()=1.00Head 5()=0.00Head 6()=1.00Head 7()=1.00Head 8()=1.00Head 9Layer 2()=1.00()=0.00()=0.27()=0.00()=1.00()=0.00()=0.02()=0.00()=1.00Layer 3()=1.00()=0.00()=1.00()=0.00()=1.00()=0.00()=0.00()=1.00()=0.00Layer 4()=0.26()=0.00()=0.42()=0.00()=1.00()=0.00()=0.00()=1.00()=0.00 0.71
                                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。