論文の概要、ライセンス

# (参考訳) Shape or Texture: CNNにおける識別的特徴の理解 [全文訳有]

Shape or Texture: Understanding Discriminative Features in CNNs ( http://arxiv.org/abs/2101.11604v1 )

ライセンス: CC0 1.0
Md Amirul Islam, Matthew Kowal, Patrick Esser, Sen Jia, Bjorn Ommer, Konstantinos G. Derpanis, Neil Bruce(参考訳) CNN(Convolutional Neural Network, Convolutional Neural Network, Convolutional Neural Network, Convolutional Neural Network, CNN)の後期の神経細胞が複雑な物体の形状に反応するという以前の証拠と対照的に、CNNは実際に「テクスチャバイアス」を示すことを示している。 しかしながら、これらの研究はネットワークの最終分類出力について実験を行い、(i)潜在表現に含まれるバイアスと(ii)ピクセル単位でのバイアスを頑健に評価することができない。 本稿では,これらの問題を克服する一連の実験を設計する。 我々は,ネットワークに含まれる形状情報の種類を識別し,形状情報を符号化し,ネットワークがトレーニング中に対象形状について学習する際の理解を深めることを目的としている。 ネットワークは、トレーニングの開始から数年で、全体の形状情報の大部分を学習し、この情報はcnnの最後の数層に主にエンコードされていることを示す。 最後に,形状のエンコーディングは,ピクセル単位の局所的な意味情報のエンコーディングを意味するものではないことを示す。 実験結果と知見は、現在のcnnの挙動をより正確に理解し、将来の設計選択を知らせるのに役立つ。

Contrasting the previous evidence that neurons in the later layers of a Convolutional Neural Network (CNN) respond to complex object shapes, recent studies have shown that CNNs actually exhibit a `texture bias': given an image with both texture and shape cues (e.g., a stylized image), a CNN is biased towards predicting the category corresponding to the texture. However, these previous studies conduct experiments on the final classification output of the network, and fail to robustly evaluate the bias contained (i) in the latent representations, and (ii) on a per-pixel level. In this paper, we design a series of experiments that overcome these issues. We do this with the goal of better understanding what type of shape information contained in the network is discriminative, where shape information is encoded, as well as when the network learns about object shape during training. We show that a network learns the majority of overall shape information at the first few epochs of training and that this information is largely encoded in the last few layers of a CNN. Finally, we show that the encoding of shape does not imply the encoding of localized per-pixel semantic information. The experimental results and findings provide a more accurate understanding of the behaviour of current CNNs, thus helping to inform future design choices.
公開日: Wed, 27 Jan 2021 18:54:00 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n a J 1 2 0 2 n a J 0.85
7 2 ] V C . 7 2 ] V C。 0.81
s c [ 1 v 4 0 6 1 1 sc [ 1 v 4 0 6 1 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
SHAPE OR TEXTURE: UNDERSTANDING DISCRIMINATIVE FEATURES IN CNNS シェープまたはテクスチャ:CNNにおける識別要素の理解 0.42
Md Amirul Islam1,6, Matthew Kowal1, Patrick Esser3, Sen Jia2, Bj¨orn Ommer3, Konstantinos G. Derpanis1,5,6 & Neil Bruce4,6 1Department of Computer Science, Ryerson University, Canada 2University of Waterloo, Canada 3IWR, HCI, Heidelberg University, Germany 4School of Computer Science, University of Guelph, Canada 5Samsung AI Centre Toronto, Canada 6Vector Institute for AI, Canada {mdamirul.islam,matth ew.kowal,kosta}@ryerson.ca, sen.jia@uwaterloo.ca {patrick.esser,bj¨orn.ommer}@iwr.uni-heidelberg. de, brucen@uoguelph.ca Md Amirul Islam1,6, Matthew Kowal1, Patrick Esser3, Sen Jia2, Bj¨orn Ommer3, Konstantinos G. Derpanis1,5,6 & Neil Bruce4,6 1Department of Computer Science, Ryerson University, Canada 2University of Waterloo, Canada 3IWR, HCI, Heidelberg University, Germany 4School of Computer Science, University of Guelph, Canada 5Samsung AI Centre Toronto, Canada 6Vector Institute for AI, Canada {mdamirul.islam,matth ew.kowal,kosta}@ryerson.ca, sen.jia@uwaterloo.ca {patrick.esser,bj¨orn.ommer}@iwr.uni-heidelberg. de, brucen@uoguelph.ca 0.77
ABSTRACT Contrasting the previous evidence that neurons in the later layers of a Convolutional Neural Network (CNN) respond to complex object shapes, recent studies have shown that CNNs actually exhibit a ‘texture bias’: given an image with both texture and shape cues (e.g., a stylized image), a CNN is biased towards predicting the category corresponding to the texture. ABSTRACT CNN(Convolutional Neural Network, Convolutional Neural Network, Convolutional Neural Network, Convolutional Neural Network, CNN)の後期の神経細胞が複雑な物体の形状に反応するという以前の証拠と対照的に、CNNは実際に「テクスチャバイアス」を示すことを示している。
訳抜け防止モード: ABSTRACT 以前の証拠とは対照的に 畳み込みニューラルネットワーク(CNN)の後層にあるニューロンは、複雑な物体形状に反応する。 最近の研究では、CNNが実際に「テクスチャバイアス」を呈していることが示されている。 テクスチャとシェイプキューの両方 (例:スタイリング画像) CNNはテクスチャに対応するカテゴリを予測する方向にバイアスされる。
0.81
However, these previous studies conduct experiments on the final classification output of the network, and fail to robustly evaluate the bias contained (i) in the latent representations, and (ii) on a per-pixel level. しかしながら、これらの研究はネットワークの最終分類出力について実験を行い、(i)潜在表現に含まれるバイアスと(ii)ピクセル単位でのバイアスを頑健に評価することができない。
訳抜け防止モード: しかし,これらの研究はネットワークの最終分類出力について実験を行った。 潜在表現に含まれるバイアス(i)を頑健に評価できません。 and (ii ) on a per-pixel level .
0.85
In this paper, we design a series of experiments that overcome these issues. 本稿では,これらの問題を克服する一連の実験を設計する。 0.80
We do this with the goal of better understanding what type of shape information contained in the network is discriminative, where shape information is encoded, as well as when the network learns about object shape during training. 我々は,ネットワークに含まれる形状情報の種類を識別し,形状情報を符号化し,ネットワークがトレーニング中に対象形状について学習する際の理解を深めることを目的としている。 0.90
We show that a network learns the majority of overall shape information at the first few epochs of training and that this information is largely encoded in the last few layers of a CNN. ネットワークは、トレーニングの開始から数年で、全体の形状情報の大部分を学習し、この情報はcnnの最後の数層に主にエンコードされていることを示す。 0.80
Finally, we show that the encoding of shape does not imply the encoding of localized per-pixel semantic information. 最後に,形状のエンコーディングは,ピクセル単位の局所的な意味情報のエンコーディングを意味するものではないことを示す。 0.61
The experimental results and findings provide a more accurate understanding of the behaviour of current CNNs, thus helping to inform future design choices. 実験結果と知見は、現在のcnnの挙動をより正確に理解し、将来の設計選択を知らせるのに役立つ。 0.66
1 INTRODUCTION Convolutional neural networks (CNNs) have achieved unprecedented performance in various computer vision tasks, such as image classification (Krizhevsky et al., 2012; Simonyan & Zisserman, 2015; He et al., 2016), object detection (Ren et al., 2015; He et al., 2017) and semantic segmentation (Long et al., 2015; Chen et al., 2017; Islam et al., 2017). 1 導入 畳み込みニューラルネットワーク(CNN)は、画像分類(Krizhevsky et al., 2012; Simonyan & Zisserman, 2015; He et al., 2016)、オブジェクト検出(Ren et al., 2015; He et al., 2017)、セマンティックセグメンテーション(Long et al., 2015; Chen et al., 2017; Islam et al., 2017)など、様々なコンピュータビジョンタスクにおいて前例のないパフォーマンスを達成した。 0.73
Despite their black box nature, various studies have shown that early layers in CNNs activate for low-level patterns, like edges and blobs, while deeper layers activate for more complex and high-level patterns (Zeiler & Fergus, 2014; Springenberg et al., 2014). ブラックボックスの性質にもかかわらず、cnnの初期の層はエッジやブロブのような低レベルパターンを活性化し、より深い層はより複雑で高レベルパターンを活性化する(zeiler & fergus, 2014; springenberg et al., 2014)。 0.78
The intuition is that this hierarchical learning of latent representations allows CNNs to recognize complex object shapes to correctly classify images (Kriegeskorte, 2015). 直感的には、この潜在表現の階層的学習により、CNNは複雑なオブジェクト形状を認識して画像を正しく分類することができる(Kriegeskorte, 2015)。 0.65
In contrast, recent works (Brendel & Bethge, 2019; Hermann & Lampinen, 2020) have argued that CNNs trained on ImageNet (IN) (Deng et al., 2009) classify images mainly according to their texture, rather than object shape. 対照的に、最近の研究(Brendel & Bethge, 2019; Hermann & Lampinen, 2020)では、画像Net (IN) (Deng et al., 2009) で訓練されたCNNは、主に物体の形ではなく、テクスチャに応じて分類されていると主張している。 0.69
These conflicting results have large implications for the field of computer vision as it suggests that CNNs trained for image classification might be making decisions based largely off spurious correlations rather than a full understanding of different object categories. これらの矛盾する結果は、画像分類のために訓練されたCNNが、異なる対象カテゴリの完全な理解ではなく、素早い相関に基づいて意思決定を行っていることを示唆しているため、コンピュータビジョンの分野に大きな影響を及ぼす。 0.60
One example of these spurious correlations is how the Inception CNN (Szegedy et al., 2015) recognizes the difference between ‘Wolf’ and ‘Husky’, based on whether there is snow in the background (Tulio Ribeiro et al., 2016). これらの散発的な相関の1つの例は、Inception CNN (Szegedy et al., 2015)が背景に雪があるかどうかに基づいて、「Wolf」と「Husky」の違いを認識する方法です(Tulio Ribeiro et al., 2016)。 0.88
Recognizing object shapes is important for the generalization to out-of-domain examples (e.g., few-shot learning), as shape is more discriminative than texture when 形状がテクスチャよりも識別性が高いため、領域外例(例:少数ショット学習)への一般化には物体形状の認識が重要である。 0.70
1 1 0.85
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
Figure 1: A shape biased model (trained on Stylized ImageNet) makes predictions based on the object’s shape, or does it? 図1: 形状バイアスモデル(Stylized ImageNetで訓練された)は、オブジェクトの形状に基づいて予測を行いますか? 0.80
Extracting binary (3rd column) and semantic (4th col.) segmentation maps with a one convolutional layer readout module shows that, while the model classifies the image level shape label correctly as a ‘bird’, it fails to encode the full object shape (3rd col.) as well as fails to categorically assign every object pixel to the ‘bird’ class (4th col.). バイナリ(3列目)とセマンティクス(4列目)のセグメンテーションマップを1つの畳み込み層読み出しモジュールで抽出すると、モデルが画像レベルの形状ラベルを正しく‘bird’と分類する一方で、完全なオブジェクト形状(3列目)のエンコードに失敗し、すべてのオブジェクトピクセルを‘bird’クラス(4列目)に分類的に割り当てることができない。 0.81
texture-affecting phenomena arise, such as lighting, shading, weather, motion blur, or when switching between synthetic and real data. 光、陰影、天候、動きのぼやけ、合成データと実データの切り替えなど、テクスチャに影響する現象が発生します。 0.72
In addition to performance, identifying the discriminative features that CNNs use for decision making is critical for the transparency and further improvements of computer vision models. パフォーマンスに加えて、CNNが意思決定に使用する差別的特徴を特定することは、コンピュータビジョンモデルの透明性とさらなる改善に不可欠である。 0.71
While the model may achieve good performance for a certain task, it cannot communicate to the user about the reasons it made certain predictions. モデルは特定のタスクで優れたパフォーマンスを達成できますが、特定の予測を行った理由についてユーザーと通信することはできません。 0.69
In other words, successful models need to be good, and interpretable (Lipton, 2019). 言い換えれば、成功するモデルは良好で解釈可能である必要がある(lipton, 2019)。 0.79
This is crucial for many domains where causal mechanisms should play a significant role in short or long-term decision making such as healthcare (e.g., what in the MRI indicates a patient has cancer?). これは、医療などの短期的または長期的な意思決定において因果メカニズムが重要な役割を果たす多くの領域において重要である(例えば、mriで患者に癌があることを示すものは何か)。 0.72
Additionally, if researchers intend for their algorithms to be deployed, there must be a certain degree of trust in the decision making algorithm. さらに、研究者がアルゴリズムの展開を意図している場合は、意思決定アルゴリズムにある程度の信頼がある必要があります。 0.82
One downside of the increasing abstraction capabilities of deep CNNs is the lack of interpretability of the latent representations due to hidden layer activations coding semantic concepts in a distributed fashion (Fong & Vedaldi, 2018). ディープCNNの抽象化能力の増大の欠点の1つは、分散方式でセマンティック概念をコーディングする隠蔽層アクティベーション(Fong & Vedaldi, 2018)による潜在表現の解釈可能性の欠如である。 0.80
It has therefore been difficult to precisely quantify the type of information contained in the latent representations of CNNs. したがって、cnnの潜在表現に含まれる情報の種類を正確に定量化することは困難である。 0.71
Some methods have looked at ways to analyze the latent representations of CNNs on a neuron-to-neuron level. いくつかの方法は、CNNの神経-ニューロンレベルでの潜在表現を分析する方法を検討している。 0.55
For instance, (Bau et al., 2017) quantify the number of interpretable neurons for a CNN by evaluating the semantic segmentation performance of an individual neuron from an upsampled latent representation. 例えば、(Bau et al., 2017)は、増幅された潜在表現から個々のニューロンのセマンティックセグメンテーション性能を評価することにより、CNNの解釈可能なニューロンの数を定量化する。 0.69
Later work (Fong & Vedaldi, 2018) then removed the assumption that each neuron encodes a single semantic concept. その後(Fong & Vedaldi, 2018)、各ニューロンが単一の意味論的概念を符号化するという仮定を取り除いた。 0.67
These works successfully quantify the number of filters that recognize textures or specific objects in a CNN, but do not identify shape information within these representations. これらの作業は、CNN内のテクスチャや特定のオブジェクトを認識するフィルタの数を定量化するが、これらの表現内の形状情報を識別しない。 0.65
The most similar works to ours are those that aim to directly quantify the shape information in CNNs. CNNの形状情報を直接定量化するのが私たちの作品とよく似ている作品です。 0.74
For example, (Geirhos et al., 2018) analyzed the outputs of CNNs on images with conflicting shape and texture cues. たとえば、(Geirhos et al., 2018)は、相反する形状とテクスチャキューを持つ画像上のCNNの出力を分析しました。 0.65
By using image stylization (Huang & Belongie, 2017), they generated the Stylized ImageNet dataset (SIN), where each image has an associated shape and texture label. 画像のスタイル化(Huang & Belongie, 2017)を使用して、各画像が関連する形状とテクスチャラベルを持つStylized ImageNetデータセット(SIN)を生成しました。 0.76
They then measured the ‘shape bias’ and ‘texture bias’ of a CNN by calculating the percentage of images a CNN predicts as either the shape or texture label, respectively. そして、CNNが予測する画像の割合をそれぞれ、形状またはテクスチャラベルとして計算することで、CNNの‘形状バイアス’と‘テクスチャバイアス’を測定した。 0.70
They conclude that CNNs are ‘texture biased’ and make predictions mainly from texture in an image. 彼らはCNNが「テクスチャバイアス」であり、主に画像のテクスチャから予測を行うと結論付けました。 0.63
This metric has been used in subsequent work exploring shape and texture bias in CNNs (Hermann & Kornblith, 2019); however, the method only compares the output of a CNN, and fails to robustly quantify the amount of shape information contained in the latent representations (note that they refer to ‘shape’ as the entire 3D form of an object, including contours that are not part of the silhouette, while in our work, we define ‘shape’ as the 2D class-agnostic silhouette of an object). この計量は、CNNにおける形状とテクスチャのバイアスを探索するために使われる(Hermann & Kornblith, 2019)が、この手法はCNNの出力を比較するだけで、潜在表現に含まれる形状情報の量(これらは、シルエットの一部ではない輪郭を含むオブジェクトの3D形式全体として「形状」を参照するが、我々の研究では「形状」を物体の2Dクラス非依存のシルエットとして定義する)をしっかりと定量化できない。 0.80
Thus, the method from (Hermann & Kornblith, 2019) cannot answer a question of focus in our paper: ‘What fraction of the object’s shape is actually encoded in the latent representation?’. したがって、(Hermann & Kornblith, 2019)のメソッドは、私たちの論文で焦点の質問に答えることができません。 0.37
Further, as their metric for shape relies solely on the semantic class label, it precludes them from evaluating the encoded shape and associated categorical information on a per-pixel level. さらに、形状のメトリックはセマンティッククラスラベルのみに依存しているため、符号化された形状と関連するカテゴリー情報をピクセル単位で評価することを妨げる。 0.77
For instance, we show in Fig. 例えば、図で示します。 0.57
1 that shape biased models (i.e., trained on stylized images) do not classify images based on the entire object shape: even though the CNN correctly classifies the image as a bird, only the partial binary mask (i.e., ‘shape’) can be extracted from the latent representations and it cannot attribute the correct class label to the entire object region (i.e., semantic segmentation mask). CNNは画像を鳥として正しく分類しているが、部分的な二項マスク(つまり「シェープ」)のみを潜在表現から抽出することができ、正しいクラスラベルを対象領域全体(セマンティックセグメンテーションマスク)に属性付けすることはできない。
訳抜け防止モード: 1 偏りのあるモデル(すなわち)を形作る。 スタイル化されたイメージで訓練され ) オブジェクト全体の形状に基づいて画像の分類を行わない。 CNNは画像を鳥として正しく分類します。 潜在表現から部分二項マスク(すなわち「形」)のみを抽出できる そして、正しいクラスラベルをオブジェクト領域全体(すなわち、)に属性付けることはできない。 セグメンテーションマスク)。
0.78
Contributions. To address these issues, we perform an empirical study on the ability of CNNs to encode shape information on a neuron-to-neuron and per-pixel level. 貢献。 これらの課題に対処するため、我々はCNNがニューロン間およびピクセル単位の形状情報をエンコードする能力について実証的研究を行った。 0.64
To quantify these two aspects, we first approximate the mutual information of latent representations between pairs of semantically related images which allows us to estimate the number of dimensions in the feature space dedicated to encoding shape and texture. これら2つの側面を定量化するために,まず,意味的関連画像のペア間の潜在表現の相互情報を近似し,形状とテクスチャの符号化に特化した特徴空間の次元数を推定する。 0.82
We then propose a simple strategy to evaluate the amount of shape information contained in the internal representations of a CNN, on a per-pixel level. 次に,cnnの内部表現に含まれる形状情報量を画素単位で評価するための簡易な手法を提案する。
訳抜け防止モード: 次に、CNNの内部表現に含まれる形状情報の量を評価するための簡単な戦略を提案します。 ピクセル単位で。
0.72
The latter technique is utilized to distinguish the quality of different shape encodings, regardless of the number of neurons used in each encoding. 後者の手法は、各エンコーディングで使用されるニューロンの数に関係なく、異なる形状のエンコーディングの品質を識別するために利用される。 0.74
After showing the efficacy of the two methods, we reveal a number of meaningful properties of CNNs with respect to their ability to encode shape information, 2つの手法の有効性を示した後、形状情報をエンコードする能力に関して、CNNの有意義な特性を明らかにした。 0.73
2 GTStylized imageShapeSemanticBi rdBirdDogSheep 2 GTStylized ImageShapeSemanticBi rdDogSheep 0.64
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
Figure 2: Illustration of the techniques used to quantify shape in this paper. 図2:本論文の形状を定量化する手法のイラストレーション。 0.68
(A) Estimating the dimensionality of semantic concepts in latent representations: We stylize each image with five textures to generate image pairs which share the semantic concepts shape (right pair) and texture (left pair). (A) 潜在表現における意味概念の次元性の推定: それぞれのイメージを5つのテクスチャでスタイリングし、意味概念の形(右ペア)とテクスチャ(左ペア)を共有するイメージペアを生成する。 0.81
We feed these image pairs (shown is shape) to an encoder, E(·), and calculate the mutual information between the two latent representations, za and zb, to estimate the dimensionality, |zshape|. これらの画像対(図形は形状)をエンコーダ E(·) に供給し、2つの潜在表現 za と zb の間の相互情報を計算し、次元性 |zshape| を推定する。 0.80
(B) We quantify the shape information encoded in a convolutional neural network by freezing the weights, and then training a small read-out module (i.e., three 3×3 convolutional layers) on the latent representation to predict either a binary or semantic segmentation map. (B) 重みを凍結して畳み込みニューラルネットワークに符号化された形状情報を定量化し, 潜在表現上で小さな読み出しモジュール(3×3畳み込み層)をトレーニングし, バイナリまたはセマンティックセグメンテーションマップのいずれかを予測する。 0.82
including the following: (i) Biasing a CNN towards shape predominantly changes the number of shape encoding neurons in the last feature encoding stage. i) cnnの形状への偏りは、最終特徴の符号化段階におけるニューロンをコードする形状の数を主に変化させる。 0.75
(ii) When a CNN is trained on ImageNet, the majority of shape information is learned during the first few epochs. (ii) ImageNet で CNN を訓練すると、形状情報の大部分は最初の数秒の間に学習されます。 0.83
(iii) A significant amount of shape is encoded in the early layers of CNNs, which can be utilized to extract additional shape information from the network, by combining with shape encodings from deeper layers. 3)より深い層からの形状符号化と組み合わせることで,ネットワークから付加的な形状情報を抽出することができるCNNの初期層に相当量の形状を符号化する。 0.81
(iv) Encoding the shape and class of an object does not imply the useful encoding of localized per-pixel categorical information. 4) オブジェクトの形状とクラスをエンコードすることは、局所化された画素単位のカテゴリ情報の有用なエンコーディングを意味するものではない。
訳抜け防止モード: (iv)オブジェクトの形状とクラスをエンコードする ピクセルごとのローカライズされたカテゴリ情報の有用なエンコーディングは意味しない。
0.79
All code will be released to reproduce data and results. すべてのコードはデータと結果を再現するためにリリースされます。 0.68
2 DO CNNS SPEND MORE LEARNING CAPACITY ON SHAPE OR TEXTURE? 2 cnnは、形やテクスチャにより多くの学習能力を使うか? 0.50
With the goal of revealing the characteristics of where, when, and how much shape information is encoded in CNNs, we first aim to quantify the number of dimensions which encode shape in a CNN’s latent representation. CNNでは、どこ、いつ、どのくらいの形状情報がエンコードされているのかを明らかにすることを目的に、まずCNNの潜在表現で形状をエンコードする寸法の数を定量化することを目的としています。 0.66
This analysis on the latent representations will allow us to determine where the network spends learning capacity on shape, while other methods that focus solely on the network outputs have difficulty measuring the difference in shape information between convolutional layers. この潜在表現の分析により、ネットワークが形に学習能力を使う場所を決定することができるが、ネットワーク出力のみに焦点を当てた他の手法では、畳み込み層間の形状情報の違いを測定するのが困難である。
訳抜け防止モード: この潜在表現の分析により、ネットワークが形に学習能力を使う場所を決定することができる。 ネットワークの出力だけに焦点を当てた他の方法は 畳み込み層間の形状情報の違いの測定の難しさ
0.85
2.1 ESTIMATING SHAPE AND TEXTURE DIMENSIONALITY 2.1 形状及び構造寸法の推定 0.59
Previous works (Bau et al., 2017; Esser et al., 2020) proposed various mechanisms to reveal the semantic concepts encoded in latent representations of CNNs. 前作(Bau et al., 2017; Esser et al., 2020)はCNNの潜在表現にコードされる意味論的概念を明らかにする様々なメカニズムを提案した。 0.70
To quantify the amount of texture and shape information, we follow the approach of (Esser et al., 2020), where the number of neurons that represent a certain semantic concept is estimated. テクスチャや形状情報の量を定量化するために、特定の意味論的概念を表すニューロンの数を推定するアプローチ(Esser et al., 2020)に従います。 0.71
Given a pretrained CNN encoder, E(I) = z, where z is a latent representation, we aim to estimate the dimensionality of the semantic concepts shape and texture within z. 事前学習された cnn エンコーダ e(i) = z が与えられたとき、z は潜在表現であり、我々は z 内の意味概念の形状とテクスチャの次元を推定する。 0.72
The main idea is that the mutual information between image pairs, I a and I b, which are similar in a semantic concept, will be preserved in a neuron zi only if the neuron encodes that specific semantic concept. 主な考え方は、意味概念で類似する画像対 i a と i b の相互情報は、ニューロンが特定の意味概念を符号化した場合のみ、ニューロン zi に保存されるということである。 0.76
Hence, the mutual information between the corresponding neuron pairs, za i = E(I b), can be used to quantify the degree to which a semantic concept is represented by the neuron. したがって、対応するニューロンペア間の相互情報である za i = E(I b) を用いて、意味論的概念がニューロンによって表現される程度を定量化することができる。 0.79
A simple and efficient estimate for their mutual information i ) can be obtained based on the correlation coefficient ρi. 相関係数ρiに基づいて、その相互情報iの簡易かつ効率的な推定を行うことができる。 0.80
Indeed, under the assumption that MI(za the marginal distribution of the neuron zi is Gaussian, the correlation coefficient ρi provides a lower bound on the true mutual information through the following relationship which becomes tight for jointly Gaussian za 実際、MI(za ニューロン zi の限界分布はガウス的であるという仮定の下で、相関係数 ρi は次の関係を通じて真の相互情報に対するより低い境界を与える。 0.68
i (Kraskov et al., 2004; Foster & Grassberger, 2011). i (Kraskov et al., 2004; Foster & Grassberger, 2011)。 0.77
i = E(I a) and zb i = E(I a) と zb 0.84
i , zb i , zb 私は、zb 私は、zb 0.47
Cov(cid:0)za (cid:112)Var(za Cov(cid:0)za(cid:112 )Var(za) 0.82
i , zb i i ) Var(zb i ) i , zb i i ) Var(zb i ) 0.85
(cid:1) MI(za (cid:1) ミ(座) 0.64
i , zb i ) ≥ − 1 2 私は、zb i ) ≥ − 1 2 0.66
log(1 − ρ2 log(1 − ρ2 0.99
i ), where ρi = i ) ここで ρi = 0.86
. (1) To quantify how well a concept k is represented in terms of the number of neurons |zk| that encode the concept, we compute a score for each concept and the relative number of neurons is determined . (1) 概念kが概念をコードするニューロンの数 |zk| で表現されるかどうかを定量化するために、各概念のスコアを計算し、相対的なニューロン数を決定する。 0.83
3 3 0.85
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
Table 1: Dimensionality estimation of semantic factors |zk| for the stage-5 latent representation. 表1: ステージ5の潜在表現に対する意味因子 |zk| の次元推定。 0.78
Note that the total dimension of the latent representation, |z|, is 2048 for all networks, and that the remaining dimensions are allocated to the ‘residual’ factor. 潜在表現の総次元 |z| はすべてのネットワークに対して 2048 であり、残りの次元は 'residual' 係数に割り当てられることに注意してください。 0.75
(a) ResNet50 compared with BagNets. (a) BagNetsと比較してResNet50。 0.75
BagNets have more neurons which encode texture than shape due to their restricted receptive field. BagNetは、受容野が制限されているため、形状よりもテクスチャをコードするニューロンが多い。 0.54
(b) Networks with varying levels of shape bias. (b)形状バイアスのレベルが異なるネットワーク。 0.73
The number of neurons which encode shape correlates with shape bias. 形状をコードするニューロンの数は形状バイアスと相関する。 0.78
(c) Deeper networks contain more shape encoding neurons. (c)より深いネットワークは、より多くの形状のニューロンを含む。 0.63
Model ResNet50 BagNet33 BagNet17 BagNet9 モデル ResNet50 BagNet33 BagNet17 BagNet9 0.72
Factor |zk| Shape Texture 349 284 278 276 因子 |zk| 形状テクスチャ 349 284 278 276。 0.67
692 825 839 841 692 825 839 841 0.85
Training Data IN SIN トレーニングデータ インシン 0.58
(SIN+IN)→IN (SIN+IN)→IN 0.74
Factor |zk| Shape Texture 349 536 376 因子 |zk| 形状 テクスチャ 349 536 376。 0.67
692 477 640 692 477 640 0.85
Model ResNet50 ResNet101 ResNet152 モデル ResNet50 ResNet101 ResNet152 0.73
Factor |zk| Shape Texture 349 365 371 因子 |zk| 形状 テクスチャ 349 365 371。 0.68
692 667 661 692 667 661 0.85
i and ρtexture 私は ρtexture は 0.64
with a softmax over these scores and a baseline score. これらのスコアよりもソフトマックスとベースラインスコアで。 0.67
The latter is given by the number of neurons |z|, and shape and texture scores are given by the sum of their respective correlation coefficients ρshape , which are computed according to Eq. 後者はニューロンの数 |z| で与えられ、形状とテクスチャのスコアは eq に従って計算されるそれぞれの相関係数 ρshape の和で与えられる。 0.70
1 with statistics taken over image pairs that are similar in shape and texture, respectively. 形状とテクスチャによく似たイメージペアの統計が得られた。 0.53
Note that k ∈ {1, 2} in our case, and the remaining i dimensions not captured in any of the two semantic factors are allocated to the residual semantic factor, which by definition captures all other variability in the latent representation, z. Stylized PASCAL VOC 2012 Dataset. この場合、k ∈ {1, 2} と、2つの意味因子のいずれかにキャプチャされない残りの i 次元は、残余意味因子に割り当てられ、定義により、潜在表現における他のすべての可変性、z. stylized pascal voc 2012 データセットをキャプチャする。 0.68
Our goal is to estimate the dimensionality of two semantic concepts: (i) shape and (ii) texture, and analyze pixel-wise shape information. 我々の目標は, (i) 形状と (ii) テクスチャの2つの意味概念の次元を推定し, 画素単位の形状情報を解析することである。 0.77
Therefore we must generate a dataset that we can sample image pairs which share the semantic factors shape or texture, and have per-pixel object annotations. したがって、意味要因の形状やテクスチャを共有し、ピクセル単位のオブジェクトアノテーションを持つイメージペアをサンプリングできるデータセットを生成する必要があります。 0.74
To accomplish this goal, we create the Stylized PASCAL VOC 2012 (SVOC) dataset. この目標を達成するために、Stylized PASCAL VOC 2012 (SVOC)データセットを作成します。 0.77
Similar to SIN, we use the AdaIN style transfer algorithm (Huang & Belongie, 2017) to generate stylized images from the PASCAL VOC 2012 dataset (Everingham et al., 2010) with the same settings and hyperparameters as in the original paper (Huang & Belongie, 2017). SINと同様に、AdaINスタイルの転送アルゴリズム(Huang & Belongie, 2017)を使用して、PASCAL VOC 2012データセット(Everingham et al., 2010)から元の論文(Huang & Belongie, 2017)と同じ設定とハイパーパラメータでスタイル化された画像を生成します。 0.86
We choose five random textures from the Describable Textures Dataset (Cimpoi et al., 2014) as the styles and we stylize every PASCAL VOC image with all five of these textures. Describable Textures Dataset(Cimpoi et al., 2014)から5つのランダムテクスチャをスタイルとして選択し、これらの5つのテクスチャすべてですべてのPASCAL VOCイメージをスタイル化します。 0.76
For a fair comparison with models trained on ImageNet variants, we take only the images from PASCAL VOC which contain a single object. ImageNetの変種で訓練されたモデルと公正に比較するために、単一のオブジェクトを含むPASCAL VOCの画像のみを取ります。 0.75
With the SVOC dataset, we can now sample image pairs which are similar in texture, by using two images from different categories but stylized with the same texture (Fig. SVOCデータセットでは,異なるカテゴリの2つのイメージを同じテクスチャでスタイリングすることで,テクスチャに類似したイメージペアをサンプリングできるようになった(図)。 0.84
2(A) left), or shape, by using the same image stylized with two different textures (Fig. 2(a)左)、または形状を2つの異なるテクスチャ(図)でスタイライズした同じ画像を用いて行う。 0.78
2(A) right). 2.2 RESULTS 2(A)右)。 2.2 ReSULTS 0.72
We now evaluate the efficacy of the dimensionality estimation method by comparing two networks which differ significantly in their ability to encode shape information. 形状情報のエンコード能力が有意に異なる2つのネットワークを比較し,次元推定手法の有効性を評価した。 0.78
The first is a standard ResNet50 architecture and the second is the recently proposed BagNet (Brendel & Bethge, 2019). 1つは標準的なResNet50アーキテクチャ、2つ目は最近提案されたBagNet(Brendel & Bethge, 2019)です。 0.75
BagNets are a modified version of ResNet50 that restrict the height and width of the effective receptive field of the CNN to be a fixed maximum, i.e., either 9, 17, or 33 pixels. BagNets は ResNet50 の修正版で、CNN の有効レセプティブフィールドの高さと幅を 9 ピクセル、17 ピクセルまたは 33 ピクセルの固定最大値に制限します。 0.67
This patch-based construction precludes BagNets from classifying images based on extended shape cues. このパッチベースの構造は、拡張形状のキューに基づいて画像の分類を禁止します。 0.50
The results of this comparison are presented in Table 1(a) where both the ResNet50 and the BagNet variants are trained on IN. この比較の結果は、ResNet50とBagNetの両方がINで訓練されているテーブル1(a)で示されています。 0.71
Note that ‘Stage’ refers to a residual block in a ResNet (i.e., there are five stages in ResNet) and all experiments in Table 1 use the stage-5 features. 注意: 'Stage' は ResNet の残余ブロック (ResNet には5つのステージがある) を指し、テーブル 1 のすべての実験ではステージ 5 の機能を使用する。 0.80
As expected, BagNets have more neurons encoding texture than the ResNet50 and there is a clear correlation between the receptive field of the network and the amount of shape encoded. 予想通り、バネットはresnet50よりもテクスチャをコードするニューロンが多く、ネットワークの受容野と符号化された形状量との間に明確な相関がある。 0.76
As the receptive field decreases, the number of neurons encoding texture increases even further, while the number of neurons encoding shape decreases. 受容野が減少するにつれて、テクスチャーをコードするニューロンの数はさらに増加し、形状をコードするニューロンの数も減少する。 0.65
We now examine whether the ‘shape bias’ metric (Geirhos et al., 2018) correlates with the number of shape encoding neurons. シェイプバイアス」メトリック(Geirhos et al., 2018)がニューロンをコードするシェイプの数と相関するかどうかを調べます。 0.66
Table 1(b) compares the estimated dimensionality of a ResNet50 trained on ImageNet against networks which are biased towards shape using two different training strategies: (i) training solely on SIN and (ii) training on SIN and IN simultaneously followed by fine-tuning on IN (denoted as (SIN+IN)→IN, which achieves the best accuracy on ImageNet top-1% out of the three variations (Geirhos et al., 2018)). 表1(b)は、ImageNetで訓練されたResNet50の推定寸法を、(i)SINと(ii)SINとINでのみトレーニングし、同時にIN(SIN+IN)→INで微調整し、3つのバリエーション(Geirhos et al.、2018)のうち、ImageNetで最高の精度を実現する2つの異なるトレーニング戦略を使用して、形状に偏ったネットワークに対して比較します。 0.80
ResNet50 trained on IN has far more neurons dedicated to encoding texture than shape. INで訓練されたResNet50には、形状よりもテクスチャをエンコーディングするニューロンがはるかに多い。 0.59
There is a large difference when training a ResNet solely on SIN, where it has less neurons which encode texture than shape. SINだけでResNetをトレーニングする場合、形状よりもテクスチャをエンコードするニューロンが少ないため、大きな違いがあります。 0.74
When trained and fine-tuned on (SIN+IN) and IN, respectively, there is an increase in the number of neurons which encode shape compared to IN. 訓練および微調整された(SIN+IN)およびINでは、それぞれINと比較して形をエンコードするニューロンの数が増えています。 0.69
We consider if there is any pattern in the number of neurons encoding shape or texture as the network depth increases. ネットワーク深度が大きくなるにつれて、形やテクスチャをコードするニューロンの数にパターンがあるかどうかを検討します。 0.68
4 4 0.85
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
Res152 Res101 Res50 Bag33 Bag17 Bag9 537 841 Res152 Res101 Res50 Bag33 Bag17 Bag9 537 841 0.71
433 661 499 692 433 661 499 692 0.85
592 825 623 839 592 825 623 839 0.85
481 667 Method Net. 481 667 net メソッド。 0.76
Diss. Dim. est. Diss うーん。 まさか 0.42
Table 2: Comparing dimensionality estimations for the texture factor between two methods. 表2:2つの方法間のテクスチャ係数の次元推定の比較。 0.86
Both methods show that more texture neurons are found in representations with smaller receptive fields. どちらの方法も、より小さな受容野を持つ表現でより多くのテクスチャニューロンが見られることを示している。
訳抜け防止モード: どちらの方法も より多くのテクスチャニューロンが 受容野が小さい表現で見られます
0.73
As can be seen in Table 1(c), networks have more shape and less texture neurons as depth increases. 表1(c)に見られるように、ネットワークの形状はより大きく、深さが大きくなるにつれてテクスチャニューロンが少なくなる。 0.66
This may be due to the increase in learning capacity of the deeper networks, as more hierarchical representations allow for the network to learn increasingly complex shapes compared to the shallower networks. これは、より階層的な表現により、より浅いネットワークに比べて複雑な形状を学習できるため、より深いネットワークの学習能力の増加による可能性がある。 0.82
Further, deeper networks have stronger long range connections due to a larger effective receptive field potentially resulting in additional shape encoding neurons. さらに、より深いネットワークは、より有効な受容野がより大きいため、より強力な長距離接続を持つ。 0.55
The increase in shape understanding could be one of the reasons why deeper networks achieve better performance on various tasks, e.g., image classification. 形状理解の増大は、より深いネットワークが様々なタスク(例えば画像分類)でより良いパフォーマンスを達成する理由の1つかもしれない。 0.71
Finally, we assess the consistency between the dimensionality estimation technique and network dissection (Bau et al., 2017), another method which estimates the number of neurons representing different concepts (described in Sec. 最後に、異なる概念を表すニューロンの数を推定する別の方法として、次元推定法とネットワーク分割法(Bau et al., 2017)の一貫性を評価する。
訳抜け防止モード: 最後に,次元性推定手法の一貫性について検討する。 and network dissection (bau et al ., 2017)。 異なる概念を表すニューロンの数を推定する別の方法(secで記述)。
0.72
A.2). Since network dissection cannot estimate shape dimensionalities, the comparison is limited to the texture dimensions shown in Table 2. A.2)。 ネットワーク分割では形状寸法を推定できないため,表2に示すテクスチャ次元に限定して比較を行う。 0.77
Except for the case of BagNet9 and a difference in the absolute numbers of neurons (discussed in Sec. BagNet9の場合と神経細胞の絶対数の差(Secで議論されている)を除いて。 0.79
A.2), both methods agree about the correlation between texture dimensionality and the receptive field, which provides further evidence that dimensionality estimates quantify the relevance of semantic concepts faithfully. A.2) 両手法はテクスチャ次元と受容領域の相関について一致し, 次元推定が意味論的概念の妥当性を忠実に定量化する証拠となる。 0.78
Stage-Wise Analysis of Shape and Texture Dimensionality. 形状とテクスチャ次元のステージワイズ解析。 0.75
We now explore where CNNs encode shape by applying the dimensionality estimation method with the latent representations from ResNet50 stages one to five with different amounts of shape bias. そこで本研究では,ResNet50ステージから1~5段階まで,形状バイアスの異なる次元推定手法を用いて,CNNが形状を符号化する方法を検討する。 0.72
Due to the different dimensions at each of these stages, we present Table 3: Percentage of neurons (|zk|/|z|) encoding different the results as the percentage of disemantic concepts, k, for different stages of ResNet50 trained mensions encoding the particular semantic factor, |zk|/|z|, where for various levels of shape bias. これらの段階ごとに異なる次元があるため、表3は以下の通りである: 異なるニューロン(|zk|/|z|)をコードするニューロンの割合は、特定の意味因子をコードするResNet50の異なる段階のトレーニングマンション、|zk|/|z|の比率で異なる。 0.71
While a moderate percentage of |z| refers to length of the latent neurons encode shape in stages f1, f2, and f3, the majority of shape neurons are found in stage f5. 適当な割合の |z| は、f1、f2、f3 の段階でエンコードされる潜伏ニューロンの長さを指すが、形状ニューロンの大半は、f5 の段階で見られる。
訳抜け防止モード: 一方、|z| は段階 f1, f2, f3 における潜伏ニューロンの長さを指す。 形状ニューロンの大部分はf5期にある。
0.66
Networks with shape bias representation. 形状バイアス表現を持つネットワーク。 0.81
Table 3 shows learn additional shape information in stage f5. 表3はステージf5で追加形状情報を学習する。 0.77
that all stages of the network encode shape with an increase in the last two stages. ネットワークのすべての段階は、最後の2段階の増加で形をエンコードします。 0.78
Further, biasing the models towards shape only changes the percentage of shape encoding in the final two stages. さらに、モデルの形状への偏りは、最終2段階における形状符号化の比率だけを変化させる。
訳抜け防止モード: さらに モデルを形に偏らせることで 最終2段階における形状エンコーディングの割合だけを変更する。
0.81
Beginning at the fourth stage, there is a significant jump in the number of shape dimensions for all three models with the shape biased models having a larger increase. 4番目の段階では、形状バイアスモデルが大きく増加しているすべての3つのモデルのための形状寸法の数が大幅に増加しています。 0.81
At the final stage, latent representations encode even more shape, where SIN in particular has a large increase of 8.5%. 最終段階では、潜在表現は、特にSINが8.5%の大きな増加を有する、さらに多くの形状をエンコードする。 0.64
This indicates that biasing a model towards shape mainly affects the last two stages of the network, suggesting that future work could focus on improving the shape bias of earlier layers. これは、モデルの形状への偏見がネットワークの最後の2つの段階に大きく影響し、将来の作業が以前の層の形状偏差を改善することに焦点を合わせる可能性があることを示唆している。 0.63
An increase in shape dimensions is inversely proportional to the amount of texture dimensions. 形状寸法の増加は、テクスチャ次元の量に逆比例する。 0.67
Notably, from stage four to stage five, there is a large drop in the amount of texture dimensions for all networks. 特に、ステージ4からステージ5に、すべてのネットワークのためのテクスチャ寸法の大きな低下があります。 0.60
When Does Shape Become Relevant During Training? トレーニング中、形状はいつ重要か? 0.74
To answer the question ‘When do models learn to encode shape and texture during training?’, we capture the changes of shape and texture occurring over the course of training a classifier on ImageNet (IN) and Stylized ImageNet (SIN). モデルがトレーニング中に形とテクスチャをエンコードすることを学ぶか?”という問いに答えるために、imagenet(in)とsylized imagenet(sin)で分類器をトレーニングする過程で発生する形状とテクスチャの変化を捉える。 0.75
We obtain 18 different instances of a ResNet50 model during training on IN and SIN, each representing a checkpoint between epochs 0 and 90 (equally distributed). INとSINのトレーニング中に18種類のResNet50モデルのインスタンスを取得し、それぞれがエポック0と90(等分散)のチェックポイントを表す。 0.75
For each checkpoint, we measure the dimensionality of shape and texture semantic factors and plot the results in Fig. 各チェックポイントについて、形状とテクスチャのセマンティクスの要素の次元を計測し、結果をfigでプロットする。 0.65
3. The shape factor in the stage-5 latent representations for both IN (Fig. 3. ステージ5の潜伏表現における形状因子について (fig。 0.78
3 middle) and SIN (Fig. 3ミドル)とSIN(図)。 0.72
3 right) models become increasingly more relevant during the course of training, however the percentage of dimensions grows much larger and faster in the case of the SIN trained model. 3右) モデルは、トレーニングの過程でますます関連性が高くなっていますが、SINトレーニングモデルの場合、次元の割合はより大きく、より速くなります。 0.67
The texture factor decreases as the training progresses in both cases as well. いずれの場合もトレーニングの進行とともにテクスチャファクターが低下する。 0.64
For the stage-4 representation in a model trained on IN (Fig. INで訓練されたモデルでステージ4の表現のために(図。 0.73
3 left), note that the shape encoding neurons increase only marginally over the course of training. 3左)は、トレーニング中にニューロンをコードする形状がわずかに増加することに注意してください。 0.64
This further reveals that a large proportion of shape information is encoded at the deepest layer. これはさらに、最も深い層で多くの形状情報がエンコードされることを明らかにします。 0.70
(SIN+IN)→IN Factor |zk|/|z| Factor |zk|/|z| Shape Texture Shape Texture Shape Texture 12.5% 42.2% 12.5% 42.2% 12.5% 42.2% 14.1% 40.2% 14.1% 40.6% 14.1% 40.6% 14.6% 39.5% 14.8% 39.5% 14.8% 39.5% 15.3% 37.9% 17.7% 34.7% 17.7% 34.8% 17.0% 33.8% 26.2% 23.3% 18.4% 31.2% (SIN+IN)→IN Factor |zk|/|z| Factor |zk|/|z| shape Texture shape Texture Shape Texture 12.5% 42.2% 42.2% 12.5% 42.2% 42.2% 14.1% 40.1% 14.1% 40.6% 14.6% 14.6% 39.5% 14.8% 14.8% 39.5% 15.3% 37.3% 17.7% 17.7% 17.7% 17.7% 17.8% 17.0% 33.8% 26.8% 23.3% 18.3% 31.4% 31.2% 0.58
Factor |zk|/|z| 因子 |zk|/|z| 0.28
f1 f2 f3 f4 f5 f1 f2 f3 f4 f5 0.64
Stage IN SIN 5 舞台 内 罪 5 0.67
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
Figure 3: Analyzing the number of dimensions in a ResNet50 which encode shape (|zshape|) and texture (|ztexture|) over the course of ImageNet (IN, left two) and Stylized ImageNet (SIN, right) training. 図3: ImageNet (IN, left 2) と Stylized ImageNet (SIN, right) トレーニングの過程で、形状 (|zshape|) とテクスチャ (|ztexture|) をエンコードする ResNet50 の次元数を分析する。 0.84
Dimensions are estimated using stage four, |z(4)| = 1024, and stage five, |z(5)| = 2048, latent representations. 次元は、ステージ4、 |z(4)| = 1024、ステージ5、 |z(5)| = 2048、潜在表現を用いて推定される。 0.76
When training begins, z is very sensitive to texture but over the course of training learns to focus on the shape instead (faster in SIN case). トレーニングが始まると、zはテクスチャに非常に敏感になるが、トレーニングの途中で代わりに形状にフォーカスすることを学ぶ(SINの場合より速い)。 0.71
The vertical lines represent multiplying the learning rate by a factor of 0.1. 縦線は学習率を0.1倍に増やすことを表している。 0.77
Note that the estimated dimensions differ slightly from Table 1 as we trained the IN and SIN models used in this figure from scratch. この図で使用されるINモデルとSINモデルをゼロからトレーニングしたため、推定寸法は表1とわずかに異なることに注意してください。 0.63
3 HOW MUCH SHAPE INFORMATION DO CNNS ENCODE? CNNS ENCODEはどのような形状情報が必要ですか? 0.57
The previous section measured the dimensionality of shape encodings for various CNNs and settings. 前節では様々なcnnと設定の形状エンコーディングの次元を計測した。 0.76
We now aim to evaluate the quality of these encodings, and whether more shape encoding neurons implies that more robust shape information can be extracted from these latent representations. 現在、これらの符号化の質を評価することを目的としており、より多くの形状の符号化ニューロンがこれらの潜在表現からより堅牢な形状情報を抽出できることを示唆している。
訳抜け防止モード: これらのエンコーディングの品質を評価することを目指しています。 ニューロンのさらなる形状の符号化は より堅牢な形状の情報を この潜伏した表現から抽出できることを意味します
0.70
We also conduct a set of experiments by targeting the shape and texture-specific neurons (see Sec. 形状やテクスチャ特有のニューロンをターゲットとした一連の実験も行っています(sec参照)。 0.60
3.3 and Sec. A.1 for results and discussion), revealing an additional link between the two techniques used in our paper (i.e., dimensionality estimation and read-out module). 3.3とsec A.1(結果と議論)では,本論文で用いた2つのテクニック(次元推定と読み出しモジュール)の関連が明らかとなった。 0.74
Hermann & Kornblith (2019) measured the quality of shape encodings in a CNN’s latent representations by training a linear classifier on the CNN’s late-stage features to predict the shape label of SIN images. Hermann & Kornblith (2019)は、CNNの後期特徴の線形分類器を訓練し、SIN画像の形状ラベルを予測することで、CNNの潜在表現における形状符号化の品質を測定した。 0.79
Quantifying shape information by using image level labels does not allow for the per-pixel evaluation of the encoded shape, and its relation to the associated categorical label, two key components for fully evaluating the characteristics of shape information contained in a particular encoding. 画像レベルラベルを用いた形状情報の定量化は、特定の符号化に含まれる形状情報の特徴を十分に評価する2つの鍵成分である符号化された形状の画素単位の評価を許さない。 0.83
3.1 QUANTIFYING SHAPE INFORMATION IN CNN LATENT REPRESENTATIONS 3.1 CNNレート表現における形状情報の定量化 0.55
To overcome the aforementioned issues, we consider two tasks which require a detailed understanding of object shape: binary and semantic segmentation. 上記の問題を克服するために、オブジェクト形状の詳細な理解を必要とする2つのタスクを検討する:バイナリとセマンティックセグメンテーション。 0.73
A ‘shape encoding network’ (SEN), the network being analyzed, consists of a CNN with fixed weights. 解析中のネットワークである‘シェープ符号化ネットワーク’(SEN)は、固定重み付きCNNで構成されている。 0.81
We then train a shallow read-out module that takes a latent representation from the SEN, to predict a segmentation map (i.e., binary or semantic). 次に、SENから遅延表現を取る浅い読み出しモジュールを訓練し、セグメンテーションマップ(バイナリまたはセマンティクス)を予測します。 0.58
If the read-out module can accurately segment objects with a binary mask, we conclude the SEN encodes the precise shape of the objects of interest. 読み出しモジュールがバイナリマスクでオブジェクトを正確にセグメント化できるなら、SENは関心のあるオブジェクトの正確な形状をエンコードする。 0.74
Further, the read-out modules ability to perform semantic segmentation, measures how much of this encoded shape is successfully localized with per-pixel categorical information. さらに、読み出しモジュールはセマンティクスセグメンテーションを行うことができ、このエンコードされた形状がピクセル単位のカテゴリ情報でどのようにローカライズされるかを測定する。 0.62
We use ResNet networks of various depths (i.e., 34, 50, and 101) as SENs with a readout module containing either one or three convolution layers with 3×3 kernels. 我々は、SENとして様々な深さ(34, 50, 101)のResNetネットワークを使用し、3×3のカーネルを持つ1つまたは3つの畳み込み層を含む読み出しモジュールを使用する。 0.68
3.2 RESULTS We use the trainaug and val split of the VOC 2012 dataset to train and test the read-out module, respectively. 3.2 結果 VOC 2012データセットのtrainaugとvalの分割を使用して、それぞれ読み出しモジュールのトレーニングとテストを行います。 0.65
The binary segmentation ground truth labels are generated by converting all semantic バイナリセグメンテーション基底真理ラベルは、すべての意味を変換することによって生成される 0.58
Table 4: Left: We measure the amount of shape encoded in frozen CNN by training a read-out module on either binary (Bin) or semantic segmentation (Sem) under different training settings. 表4: 左: 異なるトレーニング設定下でバイナリ(Bin)またはセマンティックセグメンテーション(Sem)のリードアウトモジュールをトレーニングすることで、凍結したCNNでエンコードされる形状の量を計測する。 0.78
‘None’: random initialization, ‘End-to-End’: network is not frozen and trained with the read-out module, ‘IN’: pre-trained on ImageNet. Noone’: ランダムな初期化、‘End-to-End’: ネットワークは凍結されず、読み出しモジュール‘IN’: ImageNetで事前に訓練される。 0.79
Right: Shape information contained in various shape biased models. 右:様々な形状バイアスモデルに含まれる形状情報。 0.83
Training None End-to-End 訓練 なし End-to-End 0.61
IN 1 Layer Readout 3 Layers Readout 内 1層読み出し 3レイヤの読み出し 0.67
ResNet34 ResNet50 ResNet101 ResNet34 ResNet50 ResNet101 Sem Sem Bin Bin 4.8 46.5 6.1 44.9 71.5 80.2 63.4 80.2 62.7 81.0 66.3 48.1 70.6 50.9 72.1 63.4 ResNet34 ResNet50 ResNet101 ResNet34 ResNet50 ResNet101 Sem Sem Bin Bin 4.8 46.5 44.9 71.5 80.2 63.4 80.2 81.0 66.3 48.1 70.6 50.9 72.1 634 0.55
Sem Bin Bin 58.0 6.0 55.0 82.1 67.7 82.2 68.1 82.9 78.9 59.1 79.8 61.6 80.4 Sem Bin Bin 58.0 6.0 55.0 82.1 67.7 82.2 68.1 82.9 78.9 59.1 79.8 61.6 80.4 0.47
Sem Bin 5.2 48.0 Sem Bin 5.2 48.0 0.65
Sem Bin 7.2 58.0 Sem Bin 7.2 58.0 0.65
Sem 5.1 65.8 51.9 Sem 5.1 65.8 51.9 0.53
6 Training ResNet50 Bin Sem 79.8 61.6 76.4 53.7 (SIN+IN)→IN 77.8 58.0 6 訓練 ResNet50 Bin Sem 79.8 61.6 76.4 53.7 (SIN+IN)→IN 77.8 58.0 0.72
IN SIN 020406080Training Epoch152025303540Dim ension (%)zshapeztexture010 20304050607080Accura cy of Classifier (%)zshape=140zshape=152ztexture=417ztexture=398IN: Stage-4Accuracy 020406080Training Epoch152025303540Dim ension (%)zshapeztexture010 20304050607080Accura cy of Classifier (%)zshape=268zshape=363ztexture=872ztexture=667IN: Stage-5Accuracy 020406080Training Epoch152025303540Dim ension (%)zshapeztexture010 20304050607080Accura cy of Classifier (%)zshape=268zshape=542ztexture=872ztexture=457SIN: Stage-5Accuracy インシン 020406080Training Epoch152025303540Dim ension (%)zshapeztexture010 20304050607080Accura cy of Classifier (%)zshape=140zshape=152ztexture=417ztexture=398IN: Stage-4Accuracy 020406080Training Epoch152025303540Dim ension (%)zshapeztexture010 20304050607080Accura cy of Classifier (%)zshape=268zshape=363ztexture=872ztexture=667IN: Stage-5Accuracy 020406080Training Epoch152025303540Dim ension (%)zshapeztexture010 20304050607080Accura cy of Classifier (%)zshape=268zshape=542ztexture=872ztexture=457SIN: Stage-5Accuracy 0.43
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
f1 f2 f3 f4 f5 f1 f2 f3 f4 f5 0.64
Table 5: Shape encoding results for different stages of ResNet networks trained on ImageNet. 表5: imagenetでトレーニングされたresnetネットワークの異なるステージのシェープエンコーディング結果。 0.82
Combining features from early stages increases shape encoding. 初期の特徴を組み合わせることで、形状のエンコーディングが増加する。 0.59
ResNet50 ResNet101 Sem Bin Sem Bin 4.7 42.3 44.7 4.6 5.6 52.7 6.4 53.0 59.6 10.9 57.7 9.4 70.8 33.9 73.2 43.6 70.6 50.9 72.1 51.9 66.0 16.6 63.8 13.5 74.5 42.2 76.8 49.8 77.3 53.7 78.2 56.2 77.3 52.9 78.2 55.2 ResNet50 ResNet101 Sem Bin Sem Bin 4.7 42.3 44.7 4.6 5.6 52.7 6.4 53.0 59.6 10.9 57.7 9.4 70.8 33.9 73.2 43.6 70.6 50.9 72.1 51.9 66.0 16.6 63.8 13.5 74.5 42.2 76.8 49.8 77.3 53.7 78.2 56.2 77.3 52.9 78.2 55.2 0.43
Figure 4: Stage-wise predictions of read-out module on binary (Bin) and semantic (Sem) segmentation. 図4:バイナリ(Bin)およびセマンティック(Sem)セグメンテーションにおける読み出しモジュールの段階的予測。 0.81
categories to a single ‘object’ class. 一つの「オブジェクト」クラスに分類します。 0.74
Note that the binary segmentation and semantic segmentation experiments are done completely independently of one another. バイナリセグメンテーションとセマンティックセグメンテーションの実験は互いに完全に独立に行われることに注意。 0.80
Table 4 presents the results in terms of mean-Intersection-ov er-Union (mIoU) under different initialization settings with; ‘IN’: a SEN trained for ImageNet classification, ‘None’: a SEN with random weight initialization and without any training, ‘End-to-End’: the SEN and readout module trained in an end-to-end manner on either the binary (Bin) or semantic (Sem) segmentation ground truth. 表4は、異なる初期化設定下での平均交差オーバーユニオン(mIoU)の観点での結果を示しています。「IN」: ImageNet分類のために訓練されたSEN、「None」:ランダムな重量初期化とトレーニングなしのSEN、「End-to-End」:バイナリ(Bin)またはセマンティック(Sem)セグメンテーショングラウンド真実でエンドツーエンドで訓練されたSENと読み出しモジュール。 0.75
The None and End-to-End networks represent lower and upper bounds for encoding shape, respectively. NoneとEnd-to-Endのネットワークは、それぞれエンコーディング形状の下部と上部の境界を表します。 0.62
All read-out modules in this section are trained on the last layer’s latent representations. このセクションのすべての読み出しモジュールは、最後のレイヤの潜在表現に基づいてトレーニングされる。 0.69
Interestingly, three convolutional layers can extract similar amounts of shape information from the IN-SEN as the End-to-End-SEN. For example, training the ResNet101 End-to-End-SEN for Bin improves the mIoU by merely 2.5% compared to the IN-SEN. ImageNet trained CNNs also contain shape encodings which successfully localize per-pixel categorical information as well, which can be seen when comparing the performance of the IN-SEN and End-to-End SEN, e.g., for ResNet50, the IN-SEN and End-to-End-SEN achieve 61.6% and 68.1%, respectively. Interestingly, three convolutional layers can extract similar amounts of shape information from the IN-SEN as the End-to-End-SEN. For example, training the ResNet101 End-to-End-SEN for Bin improves the mIoU by merely 2.5% compared to the IN-SEN. ImageNet trained CNNs also contain shape encodings which successfully localize per-pixel categorical information as well, which can be seen when comparing the performance of the IN-SEN and End-to-End SEN, e.g., for ResNet50, the IN-SEN and End-to-End-SEN achieve 61.6% and 68.1%, respectively. 0.79
This is an interesting result considering the difficulty of semantic segmentation and that none of the IN-SEN weights are trained for pixel-wise objectives. これは意味的セグメンテーションの難しさと、ピクセル単位の目的のためにトレーニングされていないことを考慮すると興味深い結果である。 0.57
Shape information also increases relative to the depth of the network which supports the results presented in Table 1(c). 形状情報はまた、表1(c)に示す結果をサポートするネットワークの深さに対して増加します。 0.89
As expected, the End-to-End-SEN and IN-SEN contain significantly more shape information in their latent representations than the baseline None-SEN. We now evaluate the shape information encoded in networks which have different levels of shape bias. 予想通り、End-to-End-SEN と IN-SEN は、ベースラインの None-SEN よりもはるかに多くの図形情報を含み、異なるレベルの形状バイアスを持つネットワークで符号化された形状情報を評価します。 0.59
We compare the Bin and Sem performance of the read-out module trained on the features of three different SENs trained on IN, SIN, and (SIN+IN)→IN. In, SIN, (SIN+IN)→INで学習した3種類のSENの特徴に基づいて学習した読み出しモジュールのBinとSemの性能を比較した。 0.69
As the validation is on non-stylized images, SIN-SEN has slightly lower performance for Bin, and significantly less performance on Sem. バリデーションは非スティル化画像上で行われるため、SIN-SEN は Bin のパフォーマンスがわずかに低く、Sem では性能が著しく低い。 0.63
Such a large difference in performance implies that while the boundary of the object is known, it is difficult for the network to correctly assign per-pixel categorical information, a phenomenon further explored in Sec. このような性能の大きな違いは、オブジェクトの境界が知られている一方で、ネットワークがピクセルごとの分類情報を正しく割り当てることは困難であることを意味する。 0.73
3.2.1. Interestingly, the (SIN+IN)→IN-SEN also has slightly lower performance than the IN-SEN for Bin, but does not suffer in performance as much as the SIN-SEN in the case of Sem. 3.2.1. 興味深いことに、(SIN+IN)→IN-SENもIN-SEN for Binより若干性能が低いが、Semの場合はSIN-SENほど性能が低下しない。 0.65
Where is Shape Information Stored? 形状情報はどこにありますか? 0.65
We now examine if the large amount of shape information contained in ImageNet pretrained models is equally distributed across different stages of the CNN. 本研究では,imagenet 事前学習モデルに含まれる膨大な形状情報が cnn の異なる段階に等しく分布しているか検討する。 0.77
In this experiment, we train one layer read-out modules on features from different stages, (f1, f2, f3, f4, f5), of the SEN to examine which stage of a CNN encodes shape information. 本実験では,senの異なるステージ(f1,f2,f3,f4,f5)の特徴について1層読み出しモジュールを訓練し,cnnのどのステージが形状情報をエンコードしているかを調べる。 0.77
As shown in Table 5, the read-out module trained on the last stage features, (f4, f5), achieves higher performance compared to the earlier stage features, (f1, f2, f3), for both Bin and Sem. 表5に示すように、最終段階の特徴に基づいてトレーニングされた読み出しモジュール(f4,f5)は、binとsemの両方の初期の特徴(f1,f2,f3)よりも高いパフォーマンスを達成している。 0.74
This is to be expected, as feature maps from later stages have higher channel dimensions and larger effective receptive fields compared to the feature maps extracted from earlier layers. 後段の特徴写像は、以前の層から抽出された特徴写像と比較してチャネル次元が高く、効果的な受容場が大きいため、これは予想される。 0.56
A surprising amount of shape information (i.e., Bin) can be extracted from stages f1, f2 and f3; however, these features lack high-level semantics to correlate with this shape information, which can be observed as the corresponding Sem performance is much lower. ステージf1、f2、f3から驚くほどの形状情報(つまりビン)を抽出することができるが、これらの特徴は、対応するSem性能がはるかに低い場合に観測できるこの形状情報と相関する高レベルの意味論を欠いている。 0.74
Figure 4 reveals this phenomenon; the horse and person are outlined even for the early stage binary masks, but are only labelled with correct per-pixel categorical assignments in the later stages. 図4は、この現象を明らかにしています。馬と人は、初期の二分マスクでも概略されていますが、後段で正しいピクセル単位のカテゴリの割り当てでラベル付けされます。 0.54
Considering the non-trivial amount of shape information contained in the early stages, we investigate if aggregating multi-stage features encodes more shape compared to the last stage feature, f5. 初期段階に含まれる非自明な形状情報を考慮して,多段階特徴の集約が前段特徴量f5よりも多くの形状を符号化するかどうかを検討する。 0.71
Table 5 (bottom) shows that training a readout module on multi-stage features significantly improves the Bin and Sem performance, suggesting that tasks 表5(下図)は、マルチステージ機能で読み出しモジュールをトレーニングすると、BinとSemのパフォーマンスが大幅に向上することを示している。 0.68
7 ImageBinSemBinGTSemG T 7 ImageBinSemBinGTSemG T 0.85
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
Table 6: Shape encoding shape biased results for stylized ResNet50s on VOC12 validation set. 表6:shape encoding shape biased results for stylized resnet50s on voc12 validation set 0.76
Training Data ResNet50 Bin. トレーニングデータ ResNet50 Bin。 0.85
Sem. 45.7 8.5 60.3 26.4 (SIN+IN)→ IN 44.5 9.0 まさか。 45.7 8.5 60.3 26.4 (SIN+IN)→ 44.5 9.0 0.51
IN SIN Figure 6: Binary and semantic segmentation masks extracted from CNNs trained on ImageNet (IN) and Stylized ImageNet (SIN). インシン 図6: ImageNet (IN)とStylized ImageNet (SIN)でトレーニングされたCNNから抽出されたバイナリおよびセマンティックセグメンテーションマスク。 0.57
requiring shape information may benefit from hypercolumn style architectures (Hariharan et al., 2015). 形状情報を必要とすることは、ハイパーカラムスタイルのアーキテクチャ(Hariharan et al., 2015)の恩恵を受ける可能性がある。 0.54
This indicates that some shape information is encoded in earlier layers but not captured in the late stages, which agrees with the dimensionality estimation results in Table 3, as around 12.5% and 14% of neurons encode shape in the first stage and second stage, respectively. これは、いくつかの形状情報が初期の層で符号化されるが、後期段階では捕捉されないことを示し、表3の寸法性推定結果と一致し、第1段階および第2段階のニューロンの約12.5%および14%が形状を符号化する。 0.68
When do CNNs Encode Shape During ImageNet Training? CNNはイメージネットトレーニング中に形状をコード化するか? 0.63
Now we quantify the amount of shape encoded in the latent representations over the same ImageNet training snapshots as in Sec. 次に、Sec と同じ ImageNet トレーニングスナップショット上で、潜入表現にエンコードされた形状の量を定量化します。 0.63
2.1. Fig. 2.1. フィギュア。 0.57
5 shows the performance of the readout module trained on the frozen SEN every five epochs, as well as the ResNet50’s validation accuracy on ImageNet classification. 図5は、凍ったSENで5つのエポックごとに訓練された読み出しモジュールのパフォーマンスと、ImageNet分類におけるResNet50の検証精度を示しています。 0.74
Note that we train a separate read-out module for every snapshot. スナップショットごとに別の読み出しモジュールをトレーニングすることに注意してください。 0.59
Similar to the findings in Fig. 図の調査結果に似ています。 0.60
3, we see that the majority of both binary and semantic shape information is learned within the first 10 epochs i.e., 77.1% 79.4% = 97.1% of the 60.0% = 88.2% of the final Sem mIoU is final Bin mIoU and 52.9% obtained by the read-out module after only 10 epochs. すなわち、77.1% 79.4% = 97.1% of the 60.0% = 88.2% of the final Sem mIoU is final Bin mIoU and 52.9% from the read-out module after only 10 epochs.3 である。 0.63
Contrasting purely shape related information (i.e., Bin), a small but significant portion of per-pixel categorical information is learned after the initial 10 epochs, when the learning rate decay is employed. 学習速度減衰を用いると、純粋な形状関連情報(例えばビン)とは対照的に、初期10時間後に画素ごとのカテゴリ情報の小さいが重要な部分が学習される。 0.82
Figure 5: Quantifying the shape and semantic information encoded by a CNN over the course of ImageNet training. 図5: imagenetトレーニングの過程でcnnによって符号化された形状と意味情報の定量化。 0.78
Vertical lines represent the learning rate decay. 垂直線は学習率の減衰を表す。 0.80
3.2.1 DOES KNOWING AN OBJECT’S SHAPE IMPLY KNOWING ITS SEMANTIC CLASS? 3.2.1 オブジェクトの形を知ることは、そのセマンティクスクラスを知ることを意味するのか? 0.51
We now explore whether a CNN encoding an object’s shape necessarily implies that it also encodes the correct semantic category on a per-pixel level. オブジェクトの形状を符号化するCNNが必ずしも、ピクセル単位で正しいセマンティックカテゴリをエンコードすることを意味しているかどうかを探索する。 0.70
In other words, for a frozen CNN, can a read-out module (trained for binary segmentation) successfully extract the binary mask while another read-out module (trained for semantic segmentation) cannot successfully extract the semantic segmentation mask? 言い換えると、凍結cnnでは、読み出しモジュール(バイナリセグメンテーション用に訓練)がバイナリマスクをうまく抽出できるが、他の読み出しモジュール(セマンティックセグメンテーションのために訓練されている)はセマンティックセグメンテーションマスクをうまく抽出できないだろうか? 0.72
Previous results (e.g., Table 4, Table 5) show that, for certain layers and networks, the binary segmentation performance of a read-out module is much higher relative to the semantic segmentation performance. 以前の結果(例えば、表4、表5)は、特定の層やネットワークにおいて、読み出しモジュールのバイナリセグメンテーション性能がセマンティックセグメンテーション性能と比較してはるかに高いことを示しています。 0.74
This suggests that shape information (i.e., the binary mask) and semantic information can be encoded in a mutually exclusive manner, i.e., a CNN can encode the silhouette of the object without encoding the semantic category of each pixel of the silhouette belongs to. これは、形状情報(すなわちバイナリマスク)と意味情報を相互排他的に符号化できること、すなわち、CNNは、シルエットの各ピクセルのセマンティックカテゴリを符号化することなく、オブジェクトのシルエットを符号化することができることを示唆している。 0.76
To this end, we validate various SENs and their read-out modules on stylized VOC12 val images as this ensures the networks must encode per-pixel semantic information based solely on the object’s shape (note that stylization removes all texture information, see Sec. この目的のために,SEN およびそれらの読み出しモジュールをスタイリングされたVOC12 val 画像上で検証し,オブジェクトの形状のみに基づいて,ネットワークが画素ごとのセマンティック情報をエンコードする必要があることを確認した(スタイリゼーションはテクスチャ情報を全て取り除くことに注意)。 0.68
2.2). The difference in performance between the Bin mIoU and Sem mIoU can therefore approximate the amount of shape information that is not correlated to its corresponding semantic class. 2.2). これにより、Bin mIoUとSem mIoUのパフォーマンスの差は、対応するセマンティッククラスと相関しない形状情報の量に近似することができる。 0.77
As shown in Table 6, the large difference in performance between Bin and Sem suggests that these SENs capture the shape (i.e., Bin mask) of the object but lack the ability to correctly assign per-pixel semantic labels to these objects. 表6に示すように、BinとSemのパフォーマンスの大きな違いは、これらのSENはオブジェクトの形状(すなわちBinマスク)をキャプチャするが、これらのオブジェクトにピクセルごとのセマンティクスラベルを正しく割り当てる能力がないことを示唆している。 0.75
Qualitative results are presented in Fig. 定性的な結果は図で示されます。 0.64
6; note how the binary mask (presented as likelihood heatmaps) for the SIN trained model reasonably segments the objects, while the semantic masks fail to resemble realistic predictions, i.e., multiple object categories are placed spuriously over the object of interest. SIN訓練されたモデルのバイナリマスク(おそらくヒートマップとして表される)がどのようにオブジェクトを合理的に分割するかに注意してください。
訳抜け防止モード: SINトレーニングモデルのバイナリマスク(潜在的ヒートマップとして提示される)が、オブジェクトを合理的にセグメントする方法に注意してください。 セマンティックマスクは 現実的な予測に 似ていない 関心の対象に対して、複数の対象カテゴリが突如として配置されます。
0.60
3.3 TARGETING SHAPE AND TEXTURE NEURONS 3.3 ターゲティング形状とテクスチャニューロン 0.64
In Sec. 2, we used a dimensionality estimation technique to estimate the number of dimensions which encode shape and texture in a CNNs latent representations. Sec。 2, CNNsの潜在表現における形状とテクスチャをエンコードする寸法数を, 次元推定手法を用いて推定した。 0.63
Given these neurons, we now validate これらのニューロンを仮定すると 0.59
8 GTBinSemINSINStylize d imageBinSem020406080 ImageNet Training Epoch102030405060708 0Shape Encoding mIoU (%)Binary SegSemantic Seg010203040506070Ac curacy of Classifier (%)mIoU=6.0mIoU=52.9mIoU=60.0mIoU=58.0mIoU=77.1mIoU=79.4Accuracy 8 GTBinSeminsINStylize d imageBinSem0204080Im ageNet Training Epoch102030405060708 0Shape Encoding mIoU (%)Binary SegSemantic Seg010203040606070Ac curacy of Classifier (%)mIoU=6.0mIoU=52.9mIoU=60.0mIoU=58.0mIoU=77.1mIoU=79.4Accuracy 0.63
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
) % ( U o I ) % ( ウ・オー・イ 0.73
n a e m 80 n a e m 80 0.85
60 40 Binary Segmentation - IN 60 40 binary segmentation - in 0.81
Shape Texture Baseline 形状テクスチャベースライン 0.75
10 20 50 Top X% of Neurons Kept (%) 10 20 50 ニューロンKeptの上位X%(%) 0.80
60 50 40 20 60 50 40 20 0.85
100 Semantic Segmentation - IN 100 セマンティックセグメンテーション - IN 0.74
10 20 Percentage of Neurons Kept (%) 10 ニューロン ケプチン (%) の割合。 0.60
50 100 80 60 50 100 80 60 0.85
40 Binary Segmentation - SIN 40 バイナリセグメンテーション - SIN 0.74
Semantic Segmentation - SIN セマンティックセグメンテーション - SIN 0.65
50 40 20 10 20 Percentage of Neurons Kept (%) 50 40 20 10 ニューロン ケプチン (%) の割合。 0.79
50 100 10 20 Percentage of Neurons Kept (%) 50 100 10 ニューロン ケプチン (%) の割合。 0.77
50 100 Figure 7: Shape encoding results by means of training a read-out module on the latent representations of an ImageNet (i.e., texture-biased model) (left two) and stylized ImageNet (shape-biased model)(right two) trained ResNet-50 for binary and semantic segmentation when removing all but top X% shape or texture-specific neurons. 50 100 図7: ImageNet(すなわちテクスチャバイアスモデル)(左2)と様式化されたImageNet(シェイプバイアスモデル(右2)の潜在表現に関する読み出しモジュールのトレーニングによって、図形エンコーディングの結果が、トップX%の形状またはテクスチャ特異的ニューロンを除くすべての除去時にバイナリおよびセマンティックセグメンテーションのためのResNet-50を訓練した。 0.82
if the most shape-specific, or texture-specific, neurons can influence the performance of a read-out module when keeping these specific neurons during training. 最も形状やテクスチャに特有なニューロンが、トレーニング中にこれらの特定のニューロンを保持する際に、読み出しモジュールのパフォーマンスに影響を及ぼす可能性がある。 0.56
We hypothesize that the network trained on Stylized ImageNet (i.e., a shape biased model) will be more reliant on the shape neurons than a network trained on ImageNet (i.e., a texture biased model) which are known to naturally exhibit a texture bias. 我々は,Stylized ImageNet(形状バイアスモデル)でトレーニングされたネットワークは,自然にテクスチャバイアスを示すことが知られているImageNet(テクスチャバイアスモデル)でトレーニングされたネットワークよりも形状ニューロンにより依存すると仮定する。 0.81
See Appendix A.1 for additional experiments where we remove the targeted neurons instead of keeping them to further validate if the most shape or texture-specific neurons can influence the performance of a read-out module during inference. Appendix A.1 のさらなる実験では、最も形状やテクスチャ特異的なニューロンが推論中に読み取りモジュールの性能に影響を及ぼすかどうかをさらに検証する代わりに、標的のニューロンを除去する。 0.72
To asses this hypothesis, we conduct a series of read-out module experiment and the same settings as Sec. この仮説を評価するために、一連の読み出しモジュール実験とSecと同じ設定を行います。 0.73
3 are imposed. However, during this experiment we manipulate the latent representation as an image passes through the ResNet-50, before it is fed through the read-out module. 3が課される。 しかし、この実験では、イメージがResNet-50を通過して読み出しモジュールに供給される前に、潜入表現を操作します。 0.76
More specifically, we rank the neurons by mutual information for both the shape and texture semantic factors, and then identify the top X% of neurons from either the shape or texture neurons. より具体的には、形状とテクスチャのセマンティクス要素の両方について相互情報によってニューロンをランク付けし、その後、形状またはテクスチャのニューロンの上位x%を識別する。 0.64
Then, we train read-out modules on the latent representations of two frozen ResNet-50s, one trained on ImageNet (IN) and another model trained on Stylized ImageNet (SIN). 次に,2つの凍結resnet-50の潜在表現について読み出しモジュールをトレーニングする。1つはimagenet(in)で,もう1つはsylized imagenet(sin)でトレーニングされたモデルである。 0.61
Before the latent representation is fed through the read-out module, we remove all other neurons except for the top X% of shape or texture-specific neurons. 読み出しモジュールを通じて潜在表現が供給される前に、形状の上位x%またはテクスチャ特有のニューロンを除いて、他の全てのニューロンを取り除く。 0.64
This forces the read-out modules to learn to perform binary segmentation and semantic segmentation solely from the top X% of neurons for either semantic factor, and we can identify which neurons are more heavily relied on for each network (i.e., the shape biased or texture biased model). これにより、読み出しモジュールは、どちらのセマンティックファクタでもニューロンの上位X%からのみバイナリセグメンテーションとセマンティックセグメンテーションを実行することを学び、どのニューロンが各ネットワーク(すなわち、形状バイアスまたはテクスチャバイアスモデル)に大きく依存しているかを特定することができます。 0.74
Results. Figure 7 illustrates the binary and semantic segmentation results in terms of mIoU obtained from training read-out modules on IN (left two) and SIN ((right two)) trained ResNet50s, respectively. 結果。 図7は、IN(左2)とSIN(右2)のトレーニングされたResNet50sのリードアウトモジュールから得られるmIoUという用語で、バイナリとセマンティックセグメンテーションの結果を示しています。 0.63
It is clear that for the model biased towards texture (IN pretrained), keeping texture neurons while removing all other neurons results in a better performance than keeping only the shape neurons. モデルがテクスチャに偏り(事前学習中)、テクスチャニューロンを全て取り除きながらテクスチャニューロンを維持することが、形状ニューロンのみを保持するよりも優れたパフォーマンスをもたらすことは明らかである。 0.65
In contrast, Fig. 7 (right two) shows that for shape-biased model (SIN pretrained), keeping shape-specific neurons achieves better performance than keeping only texture-specific neurons. 対照的に、図。 7(右2)は、形状バイアスモデル(SIN事前訓練)において、形状特異的ニューロンを維持することは、テクスチャ特異的ニューロンのみを保持することよりも優れた性能を発揮することを示す。
訳抜け防止モード: 対照的に、図。 7 (右 2 ) は形状 - 偏りモデル (sin pretrained ) を示す。 形を保ち -特定のニューロンは、テクスチャのみを保持するよりも優れたパフォーマンスを達成します。
0.61
These results support the hypothesis that the network trained on Stylized ImageNet (i.e., a shape biased model) is not only biased towards making predictions based on object shape, but more reliant on shape-specific neurons than a network trained on IN. これらの結果は、Stylized ImageNet(形状バイアスモデル)でトレーニングされたネットワークは、オブジェクト形状に基づいて予測を行うために偏りがあるだけでなく、INでトレーニングされたネットワークよりも形状特異的ニューロンに依存しているという仮説を支持する。 0.71
4 CONCLUSION In this paper, we presented a systematic study of the capacity and quality of shape encoded in a CNNs latent representations. 4 ConCLUSION この論文では,CNNの潜在表現に符号化された形状の容量と品質について,系統的研究を行った。 0.73
Approximating the mutual information between stylized PASCAL VOC images allowed us to estimate the dimensionality of the semantic concepts shape and texture (Sec. 形式化されたPASCALVOC画像間の相互情報を近似することにより,意味概念の形状とテクスチャの寸法を推定できる(Sec。 0.77
2.1). We also designed a simple strategy for determining how much shape information is encoded in these latent representations, by training a read-out module on per-pixel binary segmentation ground truth labels. 2.1). また,読み出しモジュールをピクセル単位のバイナリセグメンテーション基底真理ラベル上にトレーニングすることにより,これらの潜在表現における形状情報がどの程度エンコードされているかを決定するための簡易な戦略を考案した。
訳抜け防止モード: 2.1). 形状情報を決定するシンプルな戦略も設計しました 潜在表現にエンコードされています per - pixelバイナリセグメンテーション ground truthラベル上のread-outモジュールをトレーニングすることで。
0.75
Additionally, we perform semantic segmentation to quantify how much of this shape encoding can be correctly attributed to per-pixel categorical information. さらに,ピクセル単位のカテゴリ情報による形状符号化の精度を定量化するために,意味セグメンテーションを行う。 0.70
We showed that a model pre-trained on ImageNet has weights that contain almost all the shape and categorical information needed to perform binary or semantic segmentation from the late stage features. ImageNetで事前に訓練されたモデルには、後半のフィーチャからバイナリまたはセマンティックセグメンテーションを実行するために必要なほぼすべての形状とカテゴリ情報を含むウェイトがあることを示した。 0.64
We showed that CNNs encode a surprising amount of shape information at all stages of the network, but correctly assigning categorical labels to the corresponding shape only occurs at the last layers of the network, and that removing the image’s texture information severely hurts this correspondence. cnnはネットワークの全段階において驚くべき量の形状情報をエンコードするが、対応する形状にカテゴリラベルを正しく割り当てることはネットワークの最終層のみに発生することを示し、画像のテクスチャ情報を削除することがこの対応を著しく損なうことを示した。 0.83
Finally, we showed how removing all but a certain number of targeted shape or texture-specific neurons affects performance differently depending on the reliance on these neurons. 最後に,特定の種類の形状やテクスチャ特異的ニューロンの除去が,ニューロンの依存度によってパフォーマンスにどのように影響するかを示した。 0.65
These findings reveal important mechanisms which characterize a network’s ability to encode shape information. これらの結果から,ネットワークの形状情報をエンコードする能力を特徴付ける重要なメカニズムが明らかになった。 0.70
We anticipate these findings will be valuable for designing more robust and trustworthy computer vision algorithms. これらの発見は、より堅牢で信頼性の高いコンピュータビジョンアルゴリズムの設計に有用であると考えています。 0.52
9 9 0.85
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
ACKNOWLEDGEMENTS ACKNOWLEDGements 0.73
The authors gratefully acknowledge financial support from the Canadian NSERC Discovery Grants, Ontario Graduate Scholarship, and Vector Institute Post-graduate Affiliation award. 著者らは、カナダのNSERC Discovery Grants、オンタリオ大学院奨学金、Vector Institute Post-Senior Affiliation Awardからの資金援助に感謝している。 0.55
K.G.D. contributed to this work in his personal capacity as an Associate Professor at Ryerson University. K.G.D. この業績は、ライアソン大学の准教授として個人的地位で貢献した。 0.56
We also thank the NVIDIA Corporation for providing GPUs through their academic program. また、NVIDIA Corporationが学術プログラムを通じてGPUを提供してくれたことに感謝します。 0.58
REFERENCES David Bau, Bolei Zhou, Aditya Khosla, Aude Oliva, and Antonio Torralba. David Bau氏、Bolei Zhou氏、Aditya Khosla氏、Aude Oliva氏、Antonio Torralba氏。 0.76
Network dissection: Quantifying interpretability of deep visual representations. ネットワーク解剖: 深部視覚表現の解釈可能性の定量化 0.71
In CVPR, 2017. 2017年、CVPR。 0.68
Wieland Brendel and Matthias Bethge. Wieland BrendelとMatthias Bethge。 0.75
Approximating CNNs with bag-of-local-feature s models bag-of-local-feature sモデルによるCNNの近似 0.38
works surprisingly well on imagenet. imagenetで驚くほどうまく機能します 0.75
In ICLR, 2019. 2019年、ICLR。 0.66
Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Liang-Chieh Chen、George Papandreou、Florian Schroff、Hartwig Adam。 0.73
Rethinking atrous convolution for semantic image segmentation. 覚醒の再考 意味画像分割のための畳み込み 0.57
arXiv:1706.05587, 2017. arXiv:1706.05587, 2017 0.66
Mircea Cimpoi, Subhransu Maji, Iasonas Kokkinos, Sammy Mohamed, and Andrea Vedaldi. Mircea Cimpoi、Subhransu Maji、Iasonas Kokkinos、Sammy Mohamed、Andrea Vedaldi。 0.68
De- scribing textures in the wild. デ- 野生のテクスチャーをスクライブ。 0.63
In CVPR, 2014. 2014年、CVPR。 0.69
Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Li Fei-Fei 0.85
Imagenet: A large-scale Imagenet: 大規模 0.77
hierarchical image database. 階層型画像データベース。 0.87
In CVPR, 2009. 2009年、CVPRに入社。 0.69
Patrick Esser, Robin Rombach, and Bj¨orn Ommer. パトリック・エッサー、ロビン・ロムバッハ、Bj・ショルン・オマー。 0.50
A disentangling invertible interpretation network 非絡み合う可逆的解釈ネットワーク 0.83
for explaining latent representations. 潜在表現を説明するためです 0.56
In CVPR, 2020. CVPR、2020年。 0.72
M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. M. Everingham、L. Van Gool、C.K.I. Williams、J. Winn、A. Zisserman。 0.84
PASCAL Visual Object Classes Challenge 2010 (VOC2010) Results. PASCAL Visual Object Classes Challenge 2010 (VOC2010)の結果。 0.94
network.org/challeng es/VOC/voc2010/works hop/index.html, 2010. network.org/challeng es/VOC/voc2010/works hop/index.html, 2010 0.30
The http://www.pascal- The http://www.pascal- 0.59
Ruth Fong and Andrea Vedaldi. Ruth FongとAndrea Vedaldi。 0.78
Net2vec: Quantifying and explaining how concepts are encoded by Net2vec:概念のエンコード方法の定量化と説明 0.81
filters in deep neural networks. 深いニューラルネットワークのフィルター。 0.67
In CVPR, 2018. 2018年、CVPR。 0.65
David Foster and Peter Grassberger. David FosterとPeter Grassberger。 0.81
Lower bounds on mutual information. 相互情報の低い境界。 0.64
Physical review. E, 物理的レビュー。 e. 0.65
Statistical, nonlinear, and soft matter physics, 2011. 統計学、非線形、ソフトマター物理学、2011年。 0.71
Robert Geirhos, Patricia Rubisch, Claudio Michaelis, Matthias Bethge, Felix A Wichmann, and Imagenet-trained CNNs are biased towards texture; increasing shape bias Robert Geirhos、Patricia Rubisch、Claudio Michaelis、Matthias Bethge、Felix A Wichmann、Imagenetで訓練されたCNNは、テクスチャに偏っている。
訳抜け防止モード: Robert Geirhos, Patricia Rubisch, Claudio Michaelis, Matthias Bethge Felix A Wichmann と Imagenet - トレーニング済み CNN はテクスチャに偏っている。 形状バイアスが増加し
0.92
Wieland Brendel. Wieland Brendel 0.56
improves accuracy and robustness. 正確さと堅牢さを改善します 0.58
In ICLR, 2018. 2018年、ICLR。 0.62
Bharath Hariharan, Pablo Arbel´aez, Ross Girshick, and Jitendra Malik. Bharath Hariharan、Pablo Arbel ́aez、Ross Girshick、Jitendra Malik。 0.78
Hypercolumns for object オブジェクトのハイパーカラム 0.74
segmentation and fine-grained localization. セグメンテーションと細粒度局在 0.55
In CVPR, 2015. 2015年、CVPR。 0.69
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Kaiming 彼、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.64
Deep residual learning for image recognition. 画像の深い残差学習 認識 0.62
In CVPR, 2016. 2016年、CVPR。 0.69
Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Girshick. Kaiming He, Georgia Gkioxari, Piotr Doll ́ar, Ross Girshick 0.74
Mask R-CNN. In ICCV, 2017. マスクR-CNN。 2017年、ICCV。 0.66
Katherine L Hermann and Simon Kornblith. Katherine L HermannとSimon Kornblith。 0.81
Exploring the origins and prevalence of texture bias in テクスチャバイアスの起源と流行を探究する 0.69
convolutional neural networks. 畳み込みニューラルネットワーク。 0.62
arXiv preprint arXiv:1911.09071, 2019. arXiv preprint arXiv:1911.09071, 2019 0.81
Katherine L Hermann and Andrew K Lampinen. Katherine L HermannとAndrew K Lampinen。 0.80
What shapes feature representations? exploring 特徴表現の形状は? 探検 0.71
datasets, architectures, and training. データセット、アーキテクチャ、トレーニング。 0.59
In NeurIPS, 2020. 2020年、NeurIPSに入社。 0.68
Xun Huang and Serge Belongie. Xun HuangとSerge Belongie。 0.73
Arbitrary style transfer in real-time with adaptive instance normal- 適応型インスタンス正規化によるリアルタイム任意スタイル転送- 0.66
ization. In ICCV, pp. 化。 ICCVでは、pp。 0.71
1501–1510, 2017. 1501–1510, 2017. 0.84
Md Amirul Islam, Mrigank Rochan, Neil DB Bruce, and Yang Wang. Md Amirul Islam、Mrigank Rochan、Neil DB Bruce、Yang Wang。 0.69
Gated feedback refinement 定格フィードバックの改良 0.70
network for dense image labeling. 濃密な画像ラベリングのためのネットワーク。 0.61
In CVPR, 2017. 2017年、CVPR。 0.68
Alexander Kraskov, Harald St¨ogbauer, and Peter Grassberger. アレクサンダー・クラスコフ、ハラルド・サン・ショグバウアー、ピーター・グラスベルガー。 0.57
Estimating mutual information. Phys. 相互情報の推定。 Phys 0.66
Rev. E, 69:066138, 2004. Rev E, 69:066138, 2004。 0.68
10 10 0.85
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
Nikolaus Kriegeskorte. Nikolaus Kriegeskorte。 0.80
Deep neural networks: a new framework for modeling biological vision and 深層ニューラルネットワーク : 生体視覚モデリングのための新しいフレームワーク 0.74
brain information processing. Annual review of vision science, 1:417–446, 2015. 脳情報処理。 視覚科学年報, 1:417-446, 2015 0.74
Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Alex Krizhevsky、Ilya Sutskever、Geoffrey E Hinton。 0.66
ImageNet classification with deep convolu- ディープコンボリューを用いたImageNet分類- 0.69
tional neural networks. 集中型ニューラルネットワーク。 0.72
In NIPS, 2012. 2012年、NIPS。 0.73
ZC Lipton. The mythos of model interpretability. ZCリプトン。 モデル解釈可能性の神話。 0.71
arxiv 2016. arXiv preprint arXiv:1606.03490, arxiv 2016 arXiv preprint arXiv:1606.03490, 0.74
2019. Jonathan Long, Evan Shelhamer, and Trevor Darrell. 2019. Jonathan Long、Evan Shelhamer、Trevor Darrell。 0.76
Fully convolutional networks for semantic 意味論のための完全畳み込みネットワーク 0.61
segmentation. In CVPR, 2015. セグメンテーション 2015年、CVPR。 0.53
David McAllester and Karl Stratos. David McAllesterとKarl Stratos。 0.81
Formal limitations on the measurement of mutual information. 相互情報の計測に関する形式的制限。 0.78
In ICAIS, 2020. ICAIS、2020年。 0.73
Ben Poole, Sherjil Ozair, Aaron Van Den Oord, Alex Alemi, and George Tucker. Ben Poole、Sherjil Ozair、Aaron Van Den Oord、Alex Alemi、George Tucker。 0.71
On variational バリエーションについて 0.46
bounds of mutual information. PMLR, 2019. 相互情報の境界。 2019年、PMLR。 0.67
Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Shaoqing Ren、Kaming He、Ross Girshick、Jian Sun。 0.64
Faster R-CNN: Towards real-time object より高速なR-CNN:リアルタイムオブジェクトに向けて 0.52
detection with region proposal networks. 地域提案ネットワークによる検出。 0.80
In NIPS, 2015. 2015年、NIPS。 0.75
Karen Simonyan and Andrew Zisserman. カレン・シモンヤンとアンドリュー・ジッセルマン 0.57
Very deep convolutional networks for large-scale image 大規模画像のための超深層畳み込みネットワーク 0.76
recognition. In ICLR, 2015. 認識 2015年、ICLR。 0.58
Jost Tobias Springenberg, Alexey Dosovitskiy, Thomas Brox, and Martin Riedmiller. Jost Tobias Springenberg、Alexey Dosovitskiy、Thomas Brox、Martin Riedmiller。 0.72
Striving for Striving for ~ 0.77
simplicity: The all convolutional net. 単純さ:すべての畳み込みネット。 0.73
In ICLRW, 2014. 2014年、ICLRW。 0.66
Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich 0.76
Going deeper with convolutions. 畳み込みでさらに深く進む。 0.61
In CVPR, 2015. 2015年、CVPR。 0.69
Michael Tschannen, Josip Djolonga, Paul K. Rubenstein, Sylvain Gelly, and Mario Lucic. Michael Tschannen、Josip Djolonga、Paul K. Rubenstein、Sylvain Gelly、Mario Lucic。 0.72
On mutual information maximization for representation learning. 相互について 表現学習のための情報最大化 0.60
In ICLR, 2020. ICLR、2020年。 0.72
Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. Marco Tulio Ribeiro、Sameer Singh、Carlos Guestrin。 0.64
” Why Should I Trust You?”: Explaining なぜ私はあなたを信頼すべきなのか? 0.74
the predictions of any classifier. 任意の分類器の予測。 0.76
arXiv, pp. arXiv, pp。 0.82
arXiv–1602, 2016. arXiv-1602, 2016 0.83
Matthew D Zeiler and Rob Fergus. マシュー・ド・ゼイラーとロブ・ファーガス。 0.38
Visualizing and understanding convolutional networks. 畳み込みネットワークの可視化と理解。 0.75
In ECCV, 2014. ECCVで。 2014. 0.75
Hengshuang Zhao, Jiaya Jia, and Vladlen Koltun. Hengshuang Zhao、Jiaya Jia、およびVladlen Koltun。 0.72
Exploring self-attention for image recognition. 画像認識のための自己注意の探索 0.64
In CVPR, 2020. 内 CVPR、2020年。 0.75
11 11 0.85
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
A APPENDIX A.1 REMOVING SHAPE AND TEXTURE NEURONS APPENDIX A.1 除去形状及びテクスチャニューロン 0.59
In Sec. 3.3, we performed an experiment where we kept the top X% shape and texture-specific neurons to compare how much different CNNs relied on these neurons to encode shape. Sec。 3.3では,頭頂部x%の形状とテクスチャ特異的なニューロンを保ち,cnnの形状がどの程度異なるかを比較する実験を行った。 0.60
We now perform a similar experiment, but instead of keeping the top X% neurons, we first identify the top N of neurons from either the shape or texture-specific neurons. 同様の実験をしましたが、トップX%のニューロンを保持せず、まずは形状やテクスチャ特異的なニューロンから上位Nのニューロンを識別します。 0.63
We then remove these neurons before passing the latent representation to the read-out module by simply setting the features at other dimensions to zero. そして、他の次元の特徴をゼロに設定するだけで、潜在表現を読み出しモジュールに渡す前にこれらのニューロンを削除します。 0.68
This allows us to identify which neurons in each network (i.e., the shape biased or texture biased model) are relied on more heavily to encode shape and semantic information. これにより、各ネットワーク内のどのニューロン(例えば、形状バイアスまたはテクスチャバイアスモデル)が、形状や意味情報をエンコードするためにより大きく依存しているかを特定できる。 0.71
Note that for this experiment, no training occurs. この実験では、トレーニングは行われない。 0.74
The goal is to simply measure the difference in inference performance when removing N shape-specific neurons, or N texture-specific neurons. 目的は、N形状特異的ニューロン、またはNテクスチャ特異的ニューロンを除去する際の推論性能の違いを単に測定することです。 0.62
Therefore we simply take the trained models and read-out modules from Sec. したがって、トレーニングを受けたモデルとSecの読み出しモジュールを単に取ります。 0.70
3 to perform inference while masking out the targeted neurons. 3. 標的ニューロンをマスクアウトしながら推論を行う。 0.65
Note that validation is done on the val split from (non-stylized) VOC 2012. バリデーションはVOC 2012(非スタイル化)から分離されたvalで行われます。 0.51
Experimental Details. For this experiment, the dimensions sharing the most mutual information with respect to shape and texture are obtained from the same experiments from Sec. 実験的詳細。 本実験では, 形状とテクスチャに関して最も相互に情報を共有する次元を, Secから同じ実験から求める。 0.80
2. We then rank the dimensions for each semantic factor by mutual information. 2. 次に、各意味因子の次元を相互情報でランク付けする。 0.72
Training and inference are done with the trainug and val split, respectively, from the (non-stylized) PASCAL VOC 2012 (Everingham et al., 2010) dataset. トレーニングと推論は、それぞれ(非様式化された)PASCAL VOC 2012(Everingham et al., 2010)データセットから、トレーニングとval分割で行われます。 0.76
Table 7: Shape encoding results for ResNet50’s trained on ImageNet (IN) and stylized ImageNet (SIN) based read-out modules when the top N shape or texture-specific neurons are removed from the latent representation during inference. 表7: imagenet(in)とsylized imagenet(sin)でトレーニングされたresnet50のシェープエンコーディング結果 トップnの形状やテクスチャ特有のニューロンが推論中に潜在表現から削除された場合の読み出しモジュール。 0.80
Removing the top N shape specific neurons from the SIN-read-out hurts the network’s shape-recognition abilities more compared to the IN-read-out model. SINリードアウトからN型特定のニューロンを取り除くことは、INリードアウトモデルと比較してネットワークの形状認識能力をより損ないます。
訳抜け防止モード: SIN-read-outからのTop N形状特異的ニューロンの除去 ネットワークの形状を損なう 認識能力はIN-read-outモデルと比較される。
0.73
Shape Texture Residual IN 形状 織物 残余 内 0.56
SIN IN SIN IN SIN Sem Bin 罪 内 罪 内 罪 セムビン 0.50
Sem Bin Sem Bin Sem Bin セムビン セムビン セムビン 0.38
Sem Bin N 0 100 200 300 セムビン N 0 100 200 300 0.69
Bin 70.6 50.9 68.8 46.4 67.9 40.0 61.6 38.0 Bin 70.6 50.9 68.8 46.4 67.9 40.0 61.6 38.0 0.45
76.4 53.7 64.6 37.1 57.3 31.4 58.6 25.8 76.4 53.7 64.6 37.1 57.3 31.4 58.6 25.8 0.42
70.6 50.9 69.3 44.7 67.9 39.7 66.3 37.6 70.6 50.9 69.3 44.7 67.9 39.7 66.3 37.6 0.42
76.4 53.7 65.7 39.2 62.5 32.7 55.0 27.9 76.4 53.7 65.7 39.2 62.5 32.7 55.0 27.9 0.42
70.6 50.9 68.3 46.7 66.1 44.2 62.9 40.0 70.6 50.9 68.3 46.7 66.1 44.2 62.9 40.0 0.42
Sem 76.4 53.7 64.7 37.3 64.9 34.8 62.3 30.1 Sem 76.4 53.7 64.7 37.3 64.9 34.8 62.3 30.1 0.45
A.1.1 RESULTS A.1.1 RESULTS 0.50
Table 7 presents the binary and semantic segmentation results in terms of mIoU. 表7は、mIoUという用語でバイナリとセマンティックセグメンテーションの結果を示す。 0.67
We report the results under three different settings; (i) top N shape-specific neurons removed, (ii) top N texture-specific neurons removed, and (iii) top N residual neurons removed. 結果について, (i) top n shape-specific neurons removed, (ii) top n texture-specific neurons removed, (iii) top n residual neurons removedの3つの設定で報告した。 0.86
Note that for this experiment, we do not train the read-out module. この実験では、read-outモジュールをトレーニングしません。 0.68
Instead, we first remove the specified neurons, and then run inference using the pretrained IN and SIN models as well as the already trained read-out modules. 代わりに、まず特定のニューロンを削除し、事前トレーニングされたinとsinモデルと既にトレーニング済みの読み取りモジュールを使って推論を実行します。 0.68
Interestingly, we find that gradually removing the shape-specific neurons from SIN pretrained model more significantly hurts performance than the IN pretrained model. 興味深いことに、シンプリトレーニングモデルから形状特異的ニューロンを徐々に取り除くことは、インプリトレーニングモデルよりもパフォーマンスを著しく損なう。 0.56
For instance, removing 100 shape-specific neurons from SIN achieves 37.1% sem mIoU, while the performance dropped to 25.8% sem IoU when the top 300 shape-specific neurons are removed (i.e., an 11.3% drop). 例えば、SINから100個の形状特異的ニューロンを除去すると37.1% mIoUとなり、上位300個の形状特異的ニューロンを除去すると25.8% sem IoUに低下する(つまり11.3%の減少)。 0.71
When comparing this to the performance drop of the IN trained model, we see that the difference is lower, from 46.4% to 38.0% (i.e., an 8.4% drop). これをIN訓練モデルのパフォーマンス低下と比較すると、46.4%から38.0%(すなわち8.4%の低下)の差が小さいことがわかります。 0.77
This further supports the hypothesis that SIN trained models are more reliant on the individual shape encoding neurons than the texture encoding neurons. これはさらに、SIN訓練モデルが神経細胞をコードする個々の形状に、神経細胞をコードするテクスチャよりも依存しているという仮説を支持している。 0.51
In addition, removing shape-specific neurons from SIN pretrained model hurts performance more than removing the texture neurons. さらに、sin pretrainedモデルからの形状特異的ニューロンの除去は、テクスチャニューロンの除去よりもパフォーマンスを損なう。 0.61
For example, when removing 300 shape neurons for the SIN trained model, the performance drops to 25.8%, while removing 300 texture-specific neurons decreases the performance to only 27.9%. 例えば、sinトレーニングモデルのために300個の形状ニューロンを取り除くと、パフォーマンスは25.8%に低下し、300個のテクスチャ特異的ニューロンは27.9%に低下する。 0.71
Finally, we observe that removing shape or texture specific neurons hurts performance more than removing the residual neurons. 最後に, 形状やテクスチャ特異的ニューロンの除去が, 残存ニューロンの除去よりも性能を損なうことを観察した。 0.59
This suggests that shape and texture are the two most important semantic factors for a network to encode and that other semantic factors contained in the residual (e.g., color, lighting) are not as discriminative for the task of image classification. これは、ネットワークがエンコードする2つの重要な意味要因は形状とテクスチャであり、残差に含まれる他の意味要因(色、照明など)は画像分類のタスクほど判別的ではないことを示唆している。 0.83
12 12 0.85
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
A.2 CONSISTENCY OF DIMENSIONALITY ESTIMATION A.2 次元推定の一貫性 0.60
Sec. 2.1 analyzed the consistency between the dimensionality estimate of (Esser et al., 2020) and that of (Bau et al., 2017). Sec。 2.1 次元推定値 (esser et al., 2020) と (bau et al., 2017) との一貫性を分析した。
訳抜け防止モード: Sec。 2.1 次元推定値(Esser et al., 2020)の整合性を分析した。 そして(Bau et al ., 2017)のそれ。
0.82
In order to quantify interpretability, the latter evaluates the alignment between neurons and semantic concepts using the Broden dataset, which consists of images with pixel-wise labelings of different semantic concepts. 解釈可能性の定量化のために、後者は、異なる意味概念のピクセルワイズラベルを持つ画像からなるBrodenデータセットを使用して、ニューロンとセマンティック概念間のアライメントを評価します。 0.63
For each neuron zi, it determines the top quantile level Ti such that the activation value of zi exceeds Ti only in 0.5% of all observed cases over the dataset, i.e. 各ニューロンziに対して、ziの活性化値がデータセット上のすべての観察されたケースの0.5%でのみTiを超えるように、最高量子レベルTiを決定する。 0.73
p(zi > Ti) = 0.005. p(zi > Ti) = 0.005。 0.94
Feature maps are then upsampled to the original image resolution and each neuron is thresholded according to its quantile Ti to obtain a binary segmentation mask. 特徴写像は元の画像解像度にアップサンプリングされ、各ニューロンはその量子化Tiに従ってしきい値となり、二分分割マスクを得る。 0.64
A neuron is then termed a detector for a concept, if its segmentation mask has the highest intersection over union score (IoU) for this concept, and the IoU exceeds a threshold of 0.04. ニューロンは、そのセグメンテーションマスクがこの概念のためのユニオンスコア(IoU)よりも高い交差を持ち、IoUが0.04のしきい値を超える場合、概念の検出器と呼ばれます。 0.73
Because the Broden dataset contains no shape concepts, the comparison in Table 2 is limited to estimates on the number of neurons encoding texture, which is determined by the number of detectors for concepts from the categories material, texture and color of the Broden validation dataset. Brodenデータセットは形状の概念を含まないため、テーブル2の比較はテクスチャをコードするニューロンの数の推定に制限される。これは、Brodenバリデーションデータセットのカテゴリ材料、テクスチャ、色からの概念の検出器の数によって決定される。 0.78
We observe that both methods predict an inverse relationship between the estimated texture dimensionalities and the receptive field, except for the case of BagNet9, where a sudden drop in the number of texture detectors is observed for network dissection. 本研究では,ネットワーク切断においてテクスチャディテクタ数の急激な低下が観察された BagNet9 を除いて,両手法が推定テクスチャ次元とレセプティブフィールドの逆関係を予測できることを観測した。 0.79
Besides this qualitative agreement, the predicted absolute numbers differ. この定性的合意に加えて、予測された絶対数は異なる。 0.56
There are two main sources for the incompatibility in the absolute number of neurons. ニューロンの絶対数の非互換性には2つの主要な原因がある。 0.65
First, both approaches rely on hyperparameters,u i.e. まず、どちらのアプローチもハイパーパラメータに依存しています。 0.62
the baseline score and the choice of the normalization function in the case of dimensionality estimation, and the chosen quantile and IoU threshold in the case of network dissection. 次元推定の場合にはベースラインスコアと正規化関数の選択、およびネットワーク分割の場合には選択された量子化およびIoUしきい値。 0.77
Second, the semantic meaning of texture depends on the data, i.e. 第二に、テクスチャの意味はデータ、すなわちデータに依存する。 0.73
dimensionality estimation relies on the image pairs of SVOC, whereas network dissection relies on texture images of Broden. 次元推定はSVOCの画像対に依存するが、ネットワーク分割はBrodenのテクスチャ画像に依存する。 0.70
This might also explain the drop in detectors for BagNet9 if its receptive field is too small for some of the Broden textures. これはまた、その受容フィールドがBrodenテクスチャの一部に小さすぎる場合、BagNet9の検出器の低下を説明するかもしれません。 0.67
While absolute numbers depend on hyperparameters, results obtained with both methods are comparable across networks. 絶対数はハイパーパラメータに依存するが、両方の方法で得られる結果はネットワーク間で同等である。 0.63
The dimensionality estimate relies on an estimate of mutual information from samples. 次元推定は、サンプルからの相互情報の見積もりに依存する。 0.75
This remains a challenging problem, and even powerful variational bounds exhibit either high-bias or high-variance and suffer from sensitivity to batch sizes (Poole et al., 2019). これは依然として困難な問題であり、強力な変分境界でさえ高バイアスまたは高分散を示し、バッチサイズに対する感度に苦しむ(poole et al., 2019)。 0.63
Besides statistical limitations on the ability to accurately estimate mutual information (McAllester & Stratos, 2020), even estimates which give neither upper nor lower bounds or those which give loose bounds are still useful in practice. 相互情報を正確に推定する能力に関する統計的制限(mcallester & stratos, 2020)に加えて、上限と下限をも与えない推定やゆるい境界を与える推定も、実際には有用である。 0.75
For example, (Tschannen et al., 2020) demonstrate that loose bounds can lead to better representations when they are learned by mutual information maximization. 例えば (Tschannen et al., 2020) は、疎境界が相互情報の最大化によって学習されたときにより良い表現をもたらすことを示した。 0.70
For dimensionality estimation, potential biases of estimates will cancel out when comparing them between shape and texture neurons, hence an estimate based on the correlation is a suitable and efficient choice for our purposes. 三次元性推定では、形状とテクスチャニューロンを比較すると推定の潜在的なバイアスが取り消されるため、相関に基づく推定は私たちの目的に適切で効率的な選択です。 0.75
A.3 ESTIMATING SHAPE AND TEXTURE DIMENSIONALITY OF DIFFERENT NETWORKS a.3 異なるネットワークの形状とテクスチャの次元の推定 0.57
TRAINED ON STYLIZED IMAGENET 静止画像ネットのトレーニング 0.54
We further estimate the dimensionality of shape and texture semantic concepts of different networks in Table 8 to test the consistency of the results reported in Table 1 on different architectures. さらに、表8の異なるネットワークの形状とテクスチャのセマンティクス概念の次元を推定し、表1の異なるアーキテクチャで報告された結果の一貫性をテストする。 0.86
We run the dimensionality estimation experiment (see Sec. 次元推定実験を行います(Sec参照)。 0.72
2.1) on AlexNet (Krizhevsky et al., 2012) and VGG-16 (Simonyan & Zisserman, 2015), trained on IN and SIN. 2.1)はAlexNet(Krizhevsky et al., 2012)とVGG-16(Simonyan & Zisserman, 2015)でINとSINのトレーニングを受けた。 0.85
Consistent with the findings for ResNet50, Table 8 shows that training on SIN increases the number of dimensions encoding shape and concurrently decreases the number of dimensions encoding texture: AlexNet-IN: [Shape=729, Texture=1299], AlexNet-SIN: [1119, 870]. ResNet50の調査結果と一致して、テーブル8は、SINのトレーニングが形状を符号化する次元の数を増やし、テクスチャをエンコードする次元の数を同時に減少させることを示している。
訳抜け防止モード: ResNet50の発見と一致して、Table 8はそれを示している。 SINのトレーニングは、形状を符号化する次元数を増加させる テクスチャをエンコードする次元の数を同時に減少させる: AlexNet - IN : [ Shape=729, Texture=1299 ], AlexNet - SIN : [1119, 870 ]
0.69
VGG-16-IN: [710, 1321], VGG-16-SIN: [1090, 879]. VGG-16-IN: [710, 1321], VGG-16-SIN: [1090, 879] 0.84
The dimensionality estimation is done on the final representation before the last linear layer for all networks. 次元の推定は、すべてのネットワークの最後の線形層の前の最終表現で行われる。 0.83
Table 8: Comparison of shape bias and shape dimensionality for different networks. 表8:異なるネットワークにおける形状バイアスと形状寸法の比較。 0.88
Factor |zk| IN Bias 因子 |zk| 内 バイアス 0.57
Factor |zk| SIN Bias 因子 |zk| 罪 バイアス 0.53
Network ResNet-50 AlexNet VGG-16 ネットワーク ResNet-50 AlexNet VGG-16 0.70
Texture Texture Shape 14.1% 40.2% 22.1% 77.9% 26.2% 23.3% 81.0% 19.0% 18.0% 30.6% 42.9% 57.1% 26.0% 21.5% 75.5% 24.5% 15.3% 37.9% 17.2% 82.8% 26.6% 21.5% 77.4% 22.6% 織物 Texture Shape 14.1% 40.2% 22.1% 77.9% 26.2% 23.3% 81.0% 19.0% 18.0% 30.6% 42.9% 57.1% 26.0% 21.5% 75.5% 24.5% 15.3% 37.9% 17.2% 82.8% 26.6% 21.5% 77.4% 22.6% 0.54
Texture Shape Shape Texture 織物 形状 形状 織物 0.60
Shape 13 形状 13 0.78
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
A.4 ESTIMATING SHAPE AND TEXTURE DIMENSIONALITY OF SELF-ATTENTION NETWORKS a.4 セルフアテンションネットワークの形状とテクスチャ次元の推定 0.56
We also experiment with the recently proposed Self-Attention Networks (Zhao et al., 2020), which replace convolutional layers with self-attention layers. 我々はまた、畳み込み層を自己注意層に置き換える、最近提案されたセルフアテンションネットワーク(Zhao et al., 2020)を実験した。 0.69
Three different depths of Self-Attention Networks (SANs) were proposed. セルフアテンションネットワーク(SAN)の3つの異なる深さが提案された。 0.63
For fair comparison, we experiment with SAN-19, which the authors claim is the most similar size to ResNet50, in terms of the number of parameters in the network. 公平な比較のために、著者らはネットワーク内のパラメータ数の観点から、ResNet50と最もよく似たサイズであるSAN-19を実験する。 0.82
Additional, SANs come with two types of layer operations, patch-based and pair-based. さらに、SANには2つのタイプのレイヤ操作、パッチベースとペアベースがある。 0.57
The patch-based SAN compares patches of pixels within the attention operations, while the pair-based SAN compares individual pixels and achieves lower performance on ImageNet. パッチベースのSANは注目操作内のピクセルのパッチを比較し、ペアベースのSANは個々のピクセルを比較し、ImageNetでより低いパフォーマンスを達成する。 0.62
Due to the lower effective receptive field of the pair-based SAN compared to the patch-based SAN, we expect to see a larger number of neurons encoding shape in the patch-based SAN. パッチベースSANと比較して、ペアベースSANの効果的な受容野が低いため、パッチベースSANの形状をコードするニューロンの数が増加することが期待されている。 0.65
The results are shown in Table 9. 結果は表9に示されています。 0.77
The patch-based SAN19 has the largest number of shape encoding dimensions and lowest number of texture encoding dimensions, when compared to the pair-based SAN19 and ResNet50. パッチベースのSAN19は、ペアベースのSAN19やResNet50と比較すると、最大の形状符号化寸法と最低テクスチャ符号化寸法を有する。 0.76
Table 9: Comparing the number of shape encoding neurons and texture encoding neurons for self-attention networks (Zhao et al., 2020). 表9:自己注意ネットワークのための形状符号化ニューロンとテクスチャ符号化ニューロンの数を比較する(Zhao et al., 2020)。 0.77
Model ResNet50 モデル ResNet50 0.79
SAN-19 (patch) SAN-19 (pair) SAN-19(パッチ)SAN-19(ペア) 0.75
Factor |zk| Shape Texture 349 384 304 因子 |zk| 形状 テクスチャ 349 384 304。 0.67
692 610 764 692 610 764 0.85
Factor |zk|/|z| Shape Texture 17.0% 33.8% 18.8% 29.8% 14.9% 37.3% factor |zk|/|z| shape texture 17.0% 33.8% 18.8% 29.8% 14.9% 37.3% 0.54
A.5 LAYER-WISE DIMENSIONALITY ESTIMATION ON ALEXNET a.5 alexnet の層次元推定 0.47
We now explore where another CNN encodes shape and texture at each layer of the network. ネットワークの各層で、別のCNNが形状とテクスチャをエンコードする場所を探索する。 0.70
More specifically, we apply the dimensionality estimation technique from Sec. 具体的には,Secから次元推定手法を適用する。 0.71
2.1 on AlexNet (Krizhevsky et al., 2012) on a number of different layers. いくつかの異なるレイヤ上のAlexNet(Krizhevsky et al., 2012) 2.1。 0.83
Due to the different dimensions at each of these stages, we present the results as the percentage of dimensions encoding the particular semantic factor, |zk|/|z|, where |z| refers to length of the latent representation. これらの各段階における異なる次元のため、結果は特定の意味因子である |zk|/|z| を符号化する次元の割合として表される。 0.68
The results are presented in Table 10 and Fig. 結果は表10と図で示されています。 0.76
8. Note that the output from the convolutional layers also include the ReLU activation function. 8. 畳み込み層からの出力には、ReLUアクティベーション関数も含まれている。 0.79
ImageNet Stylized ImageNet ImageNet Stylized ImageNet 0.85
30 25 20 ) 30 25 20 ) 0.85
% ( s n o i s n e m D % ( s n o i s n e m D 0.85
i 15 1 nv o c 私は 15 1 nv o c 0.69
ol1 o p 2 nv o c ol1 o p 2 nv o c 0.90
ol2 o p Shape ol2 o p 形状 0.83
Texture 40 35 30 織物 40 35 30 0.76
25 3 nv o c 25 3 nv o c 0.85
4 nv o c Layer 4 nv o c 層 0.74
5 nv o c ol3 o p 5 nv o c ol3 o p 0.90
6 fc 7 fc 20 1 nv o c 6 fc 7 fc 20 1 nv o c 0.85
ol1 o p 2 nv o c ol1 o p 2 nv o c 0.90
ol2 o p 3 nv o c ol2 o p 3 nv o c 0.90
4 nv o c Layer 4 nv o c 層 0.74
5 nv o c ol3 o p 5 nv o c ol3 o p 0.90
6 fc 7 fc Figure 8: Shape (left) and texture (right) encoding dimensions estimated on each layer of AlexNet (Krizhevsky et al., 2012). 6 fc 7 fc 図8: 形状(左)とテクスチャ(右) アレックスネットの各層で推定される寸法を符号化する(krizhevsky et al., 2012)。 0.83
Shape biased AlexNet trained on Stylized ImageNet (Geirhos et al., 2018) encode more shape at the later layers of the network which is consistent with the findings for ResNets (He et al., 2016). Shapeed AlexNetは、Stylized ImageNet(Geirhos et al., 2018)で訓練された、ResNets(He et al., 2016)の調査結果と一致するネットワークの後半層でより多くの形状をエンコードします。 0.85
14 14 0.85
英語(論文から抽出)日本語訳スコア
Published as a conference paper at ICLR 2021 iclr 2021の会議論文として発表 0.70
Table 10: Percentage of neurons (|zk|/|z|) encoding different semantic concepts, k, for different stages of AlexNet (Krizhevsky et al., 2012) trained for various levels of shape bias. 表10:AlexNet (Krizhevsky et al., 2012)の様々な段階における異なる意味概念、kをコードするニューロンの比率(|zk|/|z|)。 0.76
Stage conv1 pool1 conv2 pool2 conv3 conv4 conv5 pool3 fc6 fc7 舞台 conv1 pool1 conv2 pool2 conv3 conv4 conv5 pool3 fc6 fc7 0.68
IN SIN Factor |zk|/|z| Factor |zk|/|z| Shape Texture Shape Texture 17.0% 35.0% 16.6% 35.3% 19.0% 31.7% 18.8% 31.8% 20.7% 27.2% 21.1% 27.7% 20.7% 26.1% 21.1% 25.9% 20.6% 27.0% 23.9% 23.2% 21.2% 25.8% 25.4% 21.7% 21.3% 24.5% 25.2% 21.0% 21.7% 23.8% 25.4% 20.9% 18.8% 28.7% 24.5% 21.9% 18.0% 30.6% 26.0% 21.5% 内 罪 Factor |zk|/|z| Factor |zk|/|z| Shape Texture Shape Texture 17.0% 35.0% 16.6% 35.3% 19.0% 31.7% 18.8% 31.8% 20.7% 27.2% 21.1% 27.7% 20.7% 26.1% 21.1% 25.9% 20.6% 27.0% 23.9% 23.2% 21.2% 25.8% 25.4% 21.7% 21.3% 24.5% 25.2% 21.0% 21.7% 23.8% 25.4% 20.9% 18.8% 28.7% 24.5% 21.9% 18.0% 30.6% 26.0% 21.5% 0.55
15 15 0.85
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。