論文の概要、ライセンス

# (参考訳) 位置、パディング、予測:CNNにおける位置情報のより深い考察 [全文訳有]

Position, Padding and Predictions: A Deeper Look at Position Information in CNNs ( http://arxiv.org/abs/2101.12322v1 )

ライセンス: CC0 1.0
Md Amirul Islam, Matthew Kowal, Sen Jia, Konstantinos G. Derpanis, and Neil D. B. Bruce(参考訳) 完全接続されたネットワークとは対照的に、畳み込みニューラルネットワーク(cnns)は、有限の空間範囲の局所フィルタに関連する重みを学習することで効率を上げる。 この意味は、フィルタが見ているものを知っているかもしれないが、それが画像に配置されている場所ではないということです。 本稿では,まずこの仮説を検証し,一般的なCNNにおいて絶対位置情報が符号化されていることを示す。 ゼロパディングはCNNに内部表現の位置情報を符号化させるが、パディングの欠如は位置符号化を妨げていることを示す。 これはCNNにおける位置情報の役割についてのより深い質問を引き起こします。(i) 下流タスクに最適な位置エンコーディングを可能にする境界ヒューリスティックは? ; (ii) 位置エンコーディングは意味表現の学習に影響を与えるか? ; (iii) 位置エンコーディングは常にパフォーマンスを改善しますか? そこで我々は,CNNにおけるパディングと境界ヒューリスティックスの役割について,これまでで最大規模のケーススタディを実施している。 境界までの距離の関数として境界効果を定量化できる新しいタスクを設計します。 多くの意味的目的が境界が意味表現に与える影響を明らかにしている。 最後に、これらの発見が複数の実世界のタスクに与える影響を実証し、位置情報がパフォーマンスの助けになるか、あるいは損なうかを示す。

In contrast to fully connected networks, Convolutional Neural Networks (CNNs) achieve efficiency by learning weights associated with local filters with a finite spatial extent. An implication of this is that a filter may know what it is looking at, but not where it is positioned in the image. In this paper, we first test this hypothesis and reveal that a surprising degree of absolute position information is encoded in commonly used CNNs. We show that zero padding drives CNNs to encode position information in their internal representations, while a lack of padding precludes position encoding. This gives rise to deeper questions about the role of position information in CNNs: (i) What boundary heuristics enable optimal position encoding for downstream tasks?; (ii) Does position encoding affect the learning of semantic representations?; (iii) Does position encoding always improve performance? To provide answers, we perform the largest case study to date on the role that padding and border heuristics play in CNNs. We design novel tasks which allow us to quantify boundary effects as a function of the distance to the border. Numerous semantic objectives reveal the effect of the border on semantic representations. Finally, we demonstrate the implications of these findings on multiple real-world tasks to show that position information can both help or hurt performance.
公開日: Thu, 28 Jan 2021 23:40:32 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n a J 1 2 0 2 n a J 0.85
8 2 ] V C . 8 2 ] V C。 0.81
s c [ 1 v 2 2 3 2 1 sc [ 1 v 2 2 3 2 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
Position, Padding and Predictions: 位置,パディング及び予測 0.57
A Deeper Look at Position Information in CNNs CNNにおける位置情報のより深い考察 0.82
Md Amirul Islam, Matthew Kowal, Sen Jia, Konstantinos G. Derpanis, and Neil D. B. Bruce Md Amirul Islam, Matthew Kowal, Sen Jia, Konstantinos G. Derpanis, Neil D. B. Bruce 0.91
1 Abstract—In contrast to fully connected networks, Convolutional Neural Networks (CNNs) achieve efficiency by learning weights associated with local filters with a finite spatial extent. 1 完全接続されたネットワークとは対照的に、畳み込みニューラルネットワーク(cnns)は、有限の空間範囲の局所フィルタに関連する重みを学習することで効率を上げる。 0.76
An implication of this is that a filter may know what it is looking at, but not where it is positioned in the image. この意味は、フィルタが見ているものを知っているかもしれないが、それが画像に配置されている場所ではないということです。 0.67
In this paper, we first test this hypothesis and reveal that a surprising degree of absolute position information is encoded in commonly used CNNs. 本稿では,まずこの仮説を検証し,一般的なCNNにおいて絶対位置情報が符号化されていることを示す。 0.71
We show that zero padding drives CNNs to encode position information in their internal representations, while a lack of padding precludes position encoding. ゼロパディングはCNNに内部表現の位置情報を符号化させるが、パディングの欠如は位置符号化を妨げていることを示す。 0.65
This gives rise to deeper questions about the role of position information in CNNs: (i) What boundary heuristics enable optimal position encoding for downstream tasks? これはCNNにおける位置情報の役割についてのより深い質問を引き起こします。(i) 下流タスクに最適な位置エンコーディングを可能にする境界ヒューリスティックは? 0.74
; (ii) Does position encoding affect the learning of semantic representations? ; (ii) 位置エンコーディングは意味表現の学習に影響を与えるか? 0.82
; (iii) Does position encoding always improve performance? ; (iii) 位置エンコーディングは常にパフォーマンスを改善しますか? 0.74
To provide answers, we perform the largest case study to date on the role that padding and border heuristics play in CNNs. そこで我々は,CNNにおけるパディングと境界ヒューリスティックスの役割について,これまでで最大規模のケーススタディを実施している。 0.55
We design novel tasks which allow us to quantify boundary effects as a function of the distance to the border. 境界までの距離の関数として境界効果を定量化できる新しいタスクを設計します。
訳抜け防止モード: 我々は新しいタスクを設計する 境界までの距離の関数として 境界効果を定量化できます
0.82
Numerous semantic objectives reveal the effect of the border on semantic representations. 多くの意味的目的が境界が意味表現に与える影響を明らかにしている。 0.53
Finally, we demonstrate the implications of these findings on multiple real-world tasks to show that position information can both help or hurt performance. 最後に、これらの発見が複数の実世界のタスクに与える影響を実証し、位置情報がパフォーマンスの助けになるか、あるいは損なうかを示す。 0.59
Index Terms—Absolute Position Information, Padding, Boundary Effects, Canvas, Location Dependent Classification and Segmentation. 索引項 — 絶対的な位置情報、パディング、境界効果、キャンバス、位置依存分類、セグメンテーション。 0.70
! 1 INTRODUCTION One of the main intuitions behind the success of CNNs for visual tasks such as image classification [1], [2], [3], [4], video classification [5], [6], [7], object detection [8], [9], [10], generative image models [11], semantic segmentation [12], [13], [14], [15], [16], [17], [18], [19], [20], [21], and saliency detection [22], [23], [24], [25], [26], [27], is that convolutions are translation equivariant. ! 1 紹介 画像分類[1], [2], [3], [4], ビデオ分類[5], [6], [7], 物体検出[8], [9], [10], 生成画像モデル[11], セマンティックセグメンテーション[12], [13], [14], [15], [16], [17], [18], [19], [20], [22], [22], [23], [24], [26], [26], [27]などの視覚タスクにおけるCNNの成功の背景にある主な直感の一つは、変換が翻訳等価であるということです。 0.72
This adds a visual inductive bias to the neural network which assumes that objects can appear anywhere in the image. これにより、ニューラルネットワークに視覚的な誘導バイアスが加わり、オブジェクトが画像のどこにでも現れると仮定します。
訳抜け防止モード: これにより、ニューラルネットワークに視覚的誘導バイアスが加わる 物体が画像のどこにでも現れると仮定します
0.74
Thus, CNNs are considered to be spatially agnostic. したがって、CNNは空間的に非依存であると考えられている。 0.39
However, until recently, it was unclear if CNNs encode any absolute spatial information, which may be important for tasks that are dependant on the position of objects in the image (e.g., semantic segmentation and salient object detection). しかし、最近まで、CNNが画像中のオブジェクトの位置に依存するタスク(セマンティックセグメンテーションや健全なオブジェクト検出など)にとって重要なタスクである絶対空間情報をエンコードしているかどうかは不明だった。 0.77
For example, while detecting saliency on a cropped version of the images, the most salient region shifts even though the visual features have not been changed. 例えば、切り取られた画像のサリエンシーを検出しながら、視覚的特徴が変化していないにもかかわらず、最もサリエントな領域は変化します。 0.68
As shown in Fig. 1, the regions determined to be most salient [28] tend to be near the center of an image. 図に示すように。 1、最も重篤な[28]と判断された領域は、画像の中心に近い傾向があります。 0.74
This is somewhat surprising, given the limited spatial extent of CNN filters through which the image is interpreted. 画像が解釈されるCNNフィルタの空間範囲が限られていることを考えると、これは多少驚きである。 0.68
In this paper, we first examine the role of absolute position information by performing a series of randomization tests with the hypothesis that CNNs might indeed learn to encode position information as a cue for decision making. 本稿では,まず,CNNが決定の手がかりとして位置情報をエンコードすることを実際に学んだという仮説を用いて,一連のランダム化テストを実施し,絶対位置情報の役割について検討する。 0.72
Our experiments reveal that position information is implicitly learned from the commonly used padding operation (zero 実験により, 一般的なパディング操作(ゼロ)から位置情報が暗黙的に学習できることが判明した。
訳抜け防止モード: 我々の実験は 位置情報は、一般的に使用されるパディング操作(ゼロ)から暗黙的に学習される
0.68
• M. A. Islam, M. Kowal, K. G. Derpanis are with Ryerson University, Canada. M.A.イスラム教、M.Kowal、K.G.DerpanisはRyerson大学、カナダにあります。 0.68
Email: {mdamirul.islam, matthew.kowal, kosta}@ryerson.ca • S. Jia is with University of Waterloo, Canada. メール: {mdamirul.islam, matthew.kowal, kosta}@ryerson.ca • S. Jiaはカナダのウォータールー大学に属する。 0.80
Email: sen.jia@uwaterloo.ca • N. Bruce is with University of Guelph, Canada. Eメール: sen.jia@uwaterloo.ca • N. Bruceは、カナダのゲルフ大学にあります。 0.66
Email: brucen@uoguelph.ca • M. A. Islam, K. G. Derpanis, and N. Bruce are also with Vector Institute • K. G. Derpanis is also with Samsung AI Centre Toronto, Canada. 電子メール: brucen@uoguelph.ca • M.A. Islamic, K.G. Derpanis, N. Bruce も Vector Institute • K.G. Derpanis と共にいます。 0.77
of Artificial Intelligence, Toronto, Canada. カナダのトロントで人工知能を専攻。 0.58
Image Cropped Image Fig. 画像 切り抜き画像 フィギュア。 0.63
1. Sample predictions for salient regions for input images (left), and a slightly cropped version (right). 1. 入力画像のサラエント領域のサンプル予測(左)と、わずかにトリミングされたバージョン(右)。 0.78
Cropping results in a shift in position rightward of features relative to the centre. トリッピングは、中心に対する特徴の右方への位置のシフトをもたらす。 0.66
It is notable that this has a significant impact on output and decision of regions deemed salient despite no explicit position encoding and a modest change to position in the input. これは、明示的な位置エンコーディングや入力位置のわずかな変更にもかかわらず、突出していると見なされる領域の出力と決定に大きな影響を与えることは注目すべきである。
訳抜け防止モード: これは地域の生産と決定に大きな影響を与えることは注目に値する。 敬礼 明示的な位置エンコーディングはなく、入力における位置の変更も少ない。
0.72
padding). Padding is commonly used to accommodate the finite domain of images and to allow the convolutional kernel’s support to extend beyond the border of an image and reduce the impact of the boundary effects [29], [30], [31], [32], [33]. パディング) パディングは、イメージの有限領域を許容し、畳み込みカーネルがイメージの境界を越えて拡張できるようにし、境界効果 [29], [30], [31], [32], [33] の影響を低減するために一般的に使用される。 0.59
In particular, zero padding is widely used for keeping the same dimensionality when applying convolution. 特に、畳み込みを施す際に同じ次元を維持するためにゼロパディングが広く用いられる。 0.73
However, its hidden effect in representation learning has long been ignored. しかし、表現学習における隠れた効果は長い間無視されてきた。 0.61
Recent studies [34], [35] also have shown that zero padding allows CNNs to encode absolute position information despite the presence of pooling layers in their architecture (e.g., global average pooling). 最近の研究 [34], [35] では、ゼロパディングにより、CNNがアーキテクチャ(例えば、グローバル平均プーリング)にプーリング層が存在するにもかかわらず、絶対位置情報をエンコードできることが示されている。 0.68
In our work, we argue 私たちの研究では 0.51
英語(論文から抽出)日本語訳スコア
2 trained with different padding types and show zero padding injects more position information than common padding types such as reflection, replicate, and circular. 2 異なるパディングタイプで訓練され、ゼロパディングは反射、複製、円形などの一般的なパディングタイプよりも多くの位置情報を注入します。 0.76
Hypothesis II: Different Canvas Colors Affect Performance: Do different background values have an effect on performance? 仮説II: キャンバスの色の違い パフォーマンスへの影響: 異なるバックグラウンド値がパフォーマンスに影響を及ぼすか? 0.75
If the padding value at the boundary has a substantial effect on a CNNs performance and position information contained in the network, one should expect that canvas values may also have a similar effect. 境界におけるパディング値がCNNの性能とネットワークに含まれる位置情報に重大な影響を及ぼす場合、キャンバス値も同様の効果を期待すべきである。 0.73
Hypothesis III: Position information is Correlated with Semantic Information: Does a network’s ability to encode absolute position information affect its ability to encode semantic information? 仮説III:位置情報はセマンティック情報と相関する:絶対位置情報をエンコードするネットワークの能力は、セマンティック情報をエンコードする能力に影響を与えますか? 0.82
If zero padding and certain canvas colors can affect performance on classification tasks due to increased position information, we expect that the position information is correlated with a network’s ability to encode semantic information. もし、位置情報の増加による分類タスクのパフォーマンスに、ゼロパディングや特定のキャンバスの色が影響すると、位置情報はセマンティック情報をエンコードするネットワークの能力と相関することが期待できる。 0.87
We demonstrate that encoding position information improves the robustness and separability of semantic features. 符号化位置情報がセマンティック機能の堅牢性と分離性を改善することを実証する。 0.66
Hypothesis IV: Boundary Effects Occur at All Image Locations: Does a CNN trained without padding suffer in performance solely at the border, or at all image regions? 仮説IV: 境界効果: 全画像位置: パッド無しで訓練されたCNNは、境界でのみ、またはすべての画像領域でパフォーマンスに苦しむか? 0.78
How does the performance change across image locations? 画像ロケーション間でのパフォーマンスはどう変わるのか? 0.74
Our analysis reveals strong evidence that the border effect impacts a CNN’s performance at all regions in the input, contrasting previous assumptions [32], [44] that border effects exist solely at the image border. 私たちの分析は、国境効果が入力中のすべての地域におけるCNNのパフォーマンスに影響を与えるという強力な証拠を明らかにし、国境効果が画像の境界にのみ存在するという以前の仮定 [32]、[44]とは対照的です。 0.66
Hypothesis V: Position Encoding Can Act as a Feature or a Bug: Does absolute position information always correlate with improved performance? 仮説 v: 位置エンコーディングは機能やバグとして作用する: 絶対的な位置情報は、常にパフォーマンス向上と相関するのか? 0.69
A CNN’s ability to leverage position information from boundary information could hurt performance when a task requires translation-invarian ce, e.g., texture recognition; however, it can also be useful if the task relies on position information, e.g., semantic segmentation. 境界情報から位置情報を利用するCNNの能力は、タスクがテクスチャ認識などの翻訳不変性を必要とする場合のパフォーマンスを損なう可能性があるが、タスクがセマンティックセグメンテーションのような位置情報に依存する場合にも有用である。 0.77
To give answers to these hypotheses (hereon referred to as H-X), we design a series of novel tasks as well as use existing techniques to quantify the absolute location information contained in different CNNs with various settings. これらの仮説(以下、h-x と呼ぶ)の答えを与えるため、様々な設定の異なる cnn に含まれる絶対位置情報を定量化するために、既存の技術を用いて一連の新しいタスクをデザインする。 0.71
The contribution of this paper extends from the analysis presented in our prior work [45] which demonstrates that (i) CNNs encode absolute position information and (ii) zero padding is a main source of this positional information in CNNs. この論文の貢献は、(i)CNNが絶対位置情報をエンコードし、(ii)ゼロパディングがCNNのこの位置情報の主なソースであることを実証する以前の研究[45]で提示された分析から広がっています。 0.76
We extend our prior work in the following respects: • We introduce location dependant experiments (see Fig. 事前の作業は以下の点で拡張しています。 • 位置依存実験を紹介します(図4参照)。
訳抜け防止モード: 以前の仕事を次の点に拡張します : • 位置依存実験を紹介する(図参照)。
0.79
5) which use a grid-based strategy to allow for a perlocation analysis of border effects in relation to absolute position information. 5) 絶対位置情報に関する境界効果のパーロケーション解析を可能にするためにグリッドベースの戦略を用いた。 0.90
We demonstrate that the perlocation analysis plays a crucial role in determining the isolated impact between boundary effects and absolute position information as a function of the distance to the image border. 画像境界までの距離の関数として,境界効果と絶対位置情報との孤立的影響を決定する上で,パーロケーション解析が重要な役割を担っていることを示す。 0.81
• We show zero padding implicitly injects more position information than common padding types (e.g., reflection, replicate, and circular). • ゼロパディングは一般的なパディングタイプ(リフレクション、複製、円形など)よりも多くの位置情報を暗黙的に注入する。 0.69
• We estimate the number of dimensions which encode position information in the latent representations of CNNs. • CNNの潜在表現における位置情報を符号化する次元の数を推定する。 0.74
• Through these experiments we show both quantitative and qualitative evidence that boundary effects have a substantial effect on CNNs in surprising ways and then demonstrate the practical implications of these findings •これらの実験を通して、境界効果がcnnに驚くべき効果をもたらすという定量的・定性的証拠の両方を示し、その実用的意義を実証する。 0.73
Fig. 2. An illustration of how border color and padding changes the boundary effects. フィギュア。 2. 境界色とパディングがどのように境界効果を変えるかの図です。 0.66
We place CIFAR-10 images in random locations on a canvas of 0’s (black) or 1’s (white). CIFAR-10の画像を0(黒)または1(白)のキャンバス上のランダムな場所に配置します。 0.72
We evaluate if a ResNet-18, trained w/ or w/o padding for semantic segmentation, can segment the image region. 意味セグメンテーションのための訓練されたw/またはw/oパディングであるresnet-18が画像領域をセグメンテーションできるかどうかを評価する。 0.53
Surprisingly, performance is improved when either zero padding or a black canvas is used, implying position information can be exploited from border heuristics to reduce the boundary effect. 驚くべきことに、ゼロパディングまたはブラックキャンバスの使用時に性能が向上し、境界ヒューリスティックから位置情報を活用して境界効果を低減することができる。 0.74
Colormap is ‘viridis’; yellow is high confidence. colormapは‘viridis’で、黄色は高い信頼度だ。 0.83
that the relationship between boundary effects and absolute position information extends beyond zero padding and has major implications in a CNN’s ability to encode confident and accurate semantic representations (see Fig. 境界効果と絶対位置情報の関係はゼロパディングを超えて広がり、cnnが自信を持って正確な意味表現をエンコードする能力に大きな影響を与えている(図参照)。 0.79
2). Our work helps to better understand the nature of the learned features in CNNs, with respect to the interaction between padding usage and positional encoding, and highlights important observations and fruitful directions for future investigation. 2). 私たちの仕事は、パディングの使用と位置符号化の相互作用に関して、CNNの学習した機能の性質をよりよく理解し、将来の調査のための重要な観察と実りある方向を強調します。 0.74
Another unexplored area related to boundary effects is the use of canvases (i.e., backgrounds) with image patches (see Fig. 境界効果に関連するもう1つの未調査領域は、画像パッチ付きキャンバス(背景)の使用である(図参照)。 0.77
2, top row). When using image patches in a deep learning pipeline involving CNNs, the user is required to paste the patch onto a canvas due to the constraint that the image must be rectangular. 2の上の列)。 cnnを含むディープラーニングパイプラインでイメージパッチを使用する場合、ユーザは、イメージが矩形でなければならないという制約のために、パッチをキャンバスにペーストする必要がある。 0.65
Canvases have been used in a wide variety of domains, such as image generation [36], [37], data augmentation [38], image inpainting [39], [40], and interpretable AI [41], [42]. Canvasは、画像生成[36]、[37]、データ拡張[38]、画像インペイント[39]、[40]、解釈可能なAI[41]、[42]など、さまざまな領域で使用されている。
訳抜け防止モード: Canvasは画像生成[36]など,さまざまな領域で使用されている。 [37 ]、データ拡張 [38 ]、画像の塗り絵 [39 ] [40 ],そして解釈可能なAI [41 ], [42 ]。
0.69
To the best of our knowledge, we first analyze the relationship between canvas value selection and absolute position information. 私たちの知る限りでは、まずcanvas値の選択と絶対位置情報の関係を分析します。 0.69
In other works, the canvas value is simply chosen in an adhoc manner, without consideration to the possible downstream implications. 他の作品では、キャンバス値は下流の影響を考慮せずに、単にアドホックな方法で選択される。 0.58
Given the pervasiveness of CNNs in a multitude of applications, it is of paramount importance to fully understand what the internal representations are encoding in these networks, as well as isolating the precise reasons that these representations are learned. 多数のアプリケーションにおけるcnnの広汎性を考えると、これらのネットワーク内でエンコードされている内部表現を十分に理解し、これらの表現が学習される正確な理由を分離することが重要である。 0.75
This comprehension can also allow for the effective design of architectures that overcome recognized shortcomings (e.g., residual connections [43] for the vanishing gradient problem). この理解はまた、認識された欠点を克服するアーキテクチャの効果的な設計を可能にする(例えば、消失する勾配問題に対する残差接続 [43])。 0.80
As boundary effects and position information in CNNs are still largely not fully understood, we aim to provide answers to the following hypotheses which reveal fundamental properties of these phenomena: Hypothesis I: Zero Padding Encodes Maximal Absolute Position Information: Does zero padding encode maximal position information compared to other padding types? CNNの境界効果と位置情報は未だに十分に理解されていないので、我々はこれらの現象の基本特性を明らかにする次の仮説への答えを提供することを目指しています:仮説I:ゼロパディングエンコード最大絶対位置情報:ゼロパディングは他のパディングタイプと比較して最大位置情報をエンコードしますか? 0.68
We evaluate the amount of position information in networks ネットワークにおける位置情報の量を評価し 0.83
英語(論文から抽出)日本語訳スコア
on multiple real-world applications. 複数の実世界の適用で。 0.60
Code will be made available for all experiments. コードはすべての実験で利用可能になる。 0.82
2 RELATED WORK Absolute Position Information in CNNs. CNNにおける2つの関連作業絶対位置情報 0.70
Many studies have explored various mechanisms which allow for humans to understand the learning process of CNNs, e.g., visualization of features [46], [47], understanding generalization [48], Class Activation Maps (CAMs) [49], [50], and disentangling representations [42], [51], [52]. 多くの研究がCNNの学習過程、例えば特徴の可視化 [46], [47], 一般化 [48], クラス活性化マップ (CAM) [49], [50] , および非連結表現 [42], [51], [52] を理解するための様々なメカニズムを探索してきた。 0.78
Recent works have explored this area in relation to a CNN’s ability to encode absolute position information. 最近の研究は、CNNが絶対位置情報をエンコードする能力に関連して、この領域を探求している。 0.60
In particular, [35], [53] have shown that CNNs are able to exploit absolute position information despite the pooling operation. 特に[35], [53]は, CNNがプール操作にもかかわらず絶対位置情報を利用することができることを示した。 0.79
This is consistent with the findings of our prior work [45] where we showed that a decoder module can extract pixel-wise location information from the encodings of a CNN. これは、デコーダモジュールがCNNのエンコーディングからピクセル方向の位置情報を抽出できることを示した以前の作業[45]の結果と一致しています。 0.76
We further suggested that zero padding is a key source of the encoded position information and revealed that a padding of size two enables CNNs to encode more position information. さらに、ゼロパディングは符号化された位置情報の鍵源であり、サイズ2のパディングによりcnnがより多くの位置情報をエンコードできることを明らかにした。 0.66
[35] also pointed out that a padding size of two enables all pixels in the input to have an equal number of convolution operations performed on it and showed further beneficial properties of this padding type, such as data efficiency. また [35] は, 2 個のパディングサイズで入力中のすべてのピクセルが同じ数の畳み込み演算を行えることを指摘し,データ効率など,このパディングタイプのより有益な特性を示した。 0.74
[53] observe the similar phenomenon and find that such spatial bias cause blind spots for small object detection. 53]同様の現象を観察し,そのような空間バイアスが小物体検出に盲点を引き起こすことを発見した。 0.78
[54] investigated different positional encodings and analyze their effects in generating images. 54] 異なる位置エンコーディングを調査し, 画像生成におけるその効果を解析した。 0.72
In contrast, we design novel experiments which allow us to conduct a distance-to-border analysis to reveal characteristics of the relationship between the boundary effect and a CNN’s ability to exploit absolute position information. 対照的に、我々は境界効果とCNNの絶対位置情報を利用する能力との間の関係の特徴を明らかにするために、境界間距離分析を行うことを可能にする新しい実験を設計します。 0.72
Explicit Positional Encoding. 位置エンコーディングを明示する。 0.61
Another line of research [33], [55], [56] explicitly injects absolute location information with the intuition of exploiting location bias in the network to improve the performance on several tasks. もう一つの研究行[33]、[55]、[56]は、ネットワーク内の位置バイアスを利用していくつかのタスクのパフォーマンスを向上させるという直感で、絶対位置情報を明示的に注入します。
訳抜け防止モード: もう一つの研究の線 [33 ], [55 ] [56 ]は直感により絶対位置情報を明示的に注入する ネットワーク内の位置バイアスを利用して、いくつかのタスクのパフォーマンスを改善する。
0.78
In [55], the input image is augmented with additional location information which improves the performance of the CNN on salient object segmentation and semantic segmentation. 55]では、入力画像に追加の位置情報が付加され、salient object segmentationおよびsemantic segmentationにおけるcnnの性能が向上する。 0.79
Another simple approach to inject location information is introduced in [33], where an additional channel is appended to convolutional layers containing the spatial location of the convolutional filter. また、[33]では、畳み込みフィルタの空間的位置を含む畳み込み層に追加のチャネルを付加する。
訳抜け防止モード: 位置情報を注入する別の単純なアプローチが[33]で紹介されている。 ここで、畳み込みフィルタの空間的位置を含む畳み込み層に追加チャネルが付加される。
0.72
Improvements with this layer augmentation are shown on a variety of tasks, including image classification, generative modelling, and object detection. このレイヤ拡張による改善は、画像分類、生成モデリング、オブジェクト検出など、さまざまなタスクで示されています。 0.72
Additionally, various forms of position information have been injected in neural networks through the use of capsule [57] and recurrent networks [58], which encode relative spatial relationships within learned feature layers. さらに、学習した特徴層内の相対空間関係を符号化するカプセル[57]とリカレントネットワーク[58]を用いて、ニューラルネットワークに様々な形態の位置情報が注入されている。 0.85
Boundary Effects in CNNs. CNNにおける境界効果 0.88
The boundary effect is a well studied phenomenon in biological neural networks [44], [59]. 境界効果は生物学的ニューラルネットワーク[44],[59]においてよく研究された現象である。 0.84
Previous works that have considered the boundary effect for artificial CNNs, have done so by means of using specialized convolutional filters for the border regions [32], or re-weighting convolution activations near the image borders by the ratio between the padded area and the convolution window area [31]. 人工CNNの境界効果を考慮した過去の作品では、境界領域[32]の特殊な畳み込みフィルタを使用することや、パッド領域[31]と畳み込みウィンドウ領域[31]との比で画像境界付近の畳み込み活性化を再重み付けすることによる。 0.76
3 H V G HS 3 H V G HS 0.85
VS Fig. 3. VS フィギュア。 3. 0.71
Generated gradient-like ground-truth position maps. グラデーション状地表面位置マップの生成 0.66
H: Horizontal, V: Vertical, G: Gaussian, HS: Horizontal Stripe, VS: Vertical Stripe. H: Horizontal, V: Vertical, G: Gaussian, HS: Horizontal Stripe, VS: Vertical Stripe。 0.84
The groundwork for some of what is presented in this paper appeared previously [45], in which we have shown that CNNs encode absolute position information and zero padding delivers the position information. 本稿では,CNNが絶対位置情報を符号化し,ゼロパッドが位置情報を伝達することを示した[45]。
訳抜け防止モード: この論文で提示されているいくつかの基礎は以前[45]に現れたものです。 そこで,cnnが絶対位置情報をエンコードし,ゼロパディングが位置情報を提供することを示す。
0.68
This give rise to deeper questions about the role of absolute position information to address boundary effects in CNNs. これはcnnにおける境界効果に対処するための絶対位置情報の役割に関するより深い疑問をもたらす。 0.75
In this work, we specifically focus on the relationship between boundary effects and absolute position information with respect to padding. 本研究では,パディングにおける境界効果と絶対位置情報との関係に着目した。 0.68
This is accompanied by an in depth analysis of introduced location dependent tasks with a perlocation analysis of border effects. これは、境界効果のパーロケーション解析を伴う、導入される位置依存タスクの奥行き解析を伴う。 0.71
3 ABSOLUTE POSITION INFORMATION IN CNNS In this section, we revisit the hypothesis presented in our prior work [45] that position information is implicitly encoded within the extracted feature maps from a pretrained CNNs. 3 ABSOLUTE POSITION Information in CNNS この節では,事前訓練したCNNから抽出した特徴マップ内に位置情報が暗黙的に符号化されているという仮説を再検討する [45]。 0.83
We validate this hypothesis empirically by predicting position information from different CNN archetypes in an end-to-end manner. 我々は,異なるCNNアーチタイプの位置情報をエンドツーエンドに予測することで,この仮説を実証的に検証する。 0.57
In the following subsections, we first summarize the problem definition, position encoding network, and synthetic data generation. 次の節では、まず問題定義、位置符号化ネットワーク、および合成データ生成をまとめます。 0.67
Then we discuss the existence (Sec. 次に、その存在について論じる。 0.61
3.1) and source (Sec. 3.1)および源(Sec。 0.86
3.3) of position information followed by the comparison of different padding types in terms of encoding position information (Sec. 3.3) 位置情報の符号化について, 異なるパディングタイプの比較を行った。 0.62
3.4). Problem Formulation. 3.4). 問題定式化。 0.74
Given an input image Im∈ Rh×w×3, our goal is to predict a gradient-like position information mask, fp∈ Rh×w, where each pixel value defines the absolute coordinates of a pixel from left→right or top→bottom. 入力画像Im∈ Rh×w×3を考えると、我々の目標はグラデーションライクな位置情報マスクfp∈ Rh×wを予測し、各ピクセル値は左→右または上→下からピクセルの絶対座標を定義することです。 0.70
We generate gradient-like masks, Gp∈ Rh×w, for supervision in our experiments, with weights of the base CNN archetypes being fixed. 実験ではGp∈ Rh×wというグラデーションのようなマスクを生成し、ベースCNNのアーキタイプを重みを固定しています。 0.66
Position Encoding Network. 位置符号化ネットワーク。 0.82
Our Position Encoding Network (PosENet) consists of two key components: a feed-forward convolutional encoder network and a simple position encoding module (PosEnc). 我々の位置符号化ネットワーク(PosENet)は、フィードフォワード畳み込みエンコーダネットワークと単純な位置符号化モジュール(PosEnc)の2つのキーコンポーネントから構成される。 0.80
The encoder network extracts features at different levels of abstraction, from shallower to deeper layers. エンコーダネットワークは、より浅い層からより深い層まで、異なる抽象レベルの特徴を抽出する。 0.73
The position encoding module takes multi-scale features from the encoder network as input and predicts the absolute position information. 位置符号化モジュールは、エンコーダネットワークからのマルチスケール特徴を入力として、絶対位置情報を予測する。 0.73
Synthetic Data and Ground-truth Generation. 合成データと地殻生成。 0.59
To validate the existence of position information in a network, we implement a randomization test by assigning a normalized gradient-like 1 position map as ground-truth shown in Fig. ネットワークにおける位置情報の存在を検証するために,正規化勾配様1位置マップを図示に示す接地地図として割り当ててランダム化テストを実施する。 0.78
3. We first generate gradient-like masks in Horizontal (H) and Vertical (V) directions. 3. まず水平方向(H)と垂直方向(V)にグラデーション状のマスクを生成します。 0.81
Similarly, we apply a Gaussian filter to design another type of ground-truth map, Gaussian 同様に、ガウスフィルタを適用して別の種類の基底写像、ガウス写像を設計する。 0.57
1. We use the term gradient to denote pixel intensities instead of the 1. 我々は、勾配という用語を使って、ピクセルの強度を表す。 0.73
gradient in back propagation. 背部伝搬の勾配。 0.57
英語(論文から抽出)日本語訳スコア
Quantitative comparison of different PosENets in terms of SPC and MAE spcとmaeによる異なるポーズネットの定量的比較 0.68
across various image types. 様々なイメージタイプにまたがる。 0.66
VGG and ResNet based PosENet can decode absolute position information more easily compared to the VGG と ResNet ベースの PosENet は、より簡単に絶対位置情報をデコードできます。 0.76
PosENet without any backbone network. バックボーンネットワークのないPosENet。 0.66
TABLE 1 Model PosENet VGG ResNet PosENet VGG ResNet PosENet VGG ResNet PosENet VGG ResNet PosENet VGG ResNet 表1 モデル PosENet VGG ResNet PosENet VGG ResNet PosENet VGG ResNet PosENet VGG ResNet 0.71
H V G HS VS H V G HS VS 0.85
Black White PASCAL-S SPC↑ MAE↓ SPC↑ MAE↓ SPC↑ MAE↓ .25 .01 .16 .74 .08 .93 .25 .13 .82 .14 .07 .95 .19 -.01 .12 .81 .94 .06 .70 -.01 .57 .41 .52 .53 .71 .01 .37 .58 .51 .52 黒 白 PASCAL-S SPC↑ MAE↓ SPC↑ MAE↓ SPC↑ MAE↓ .25 .01 .16 .74 .08 .93 .25 .13 .82 .14 .07 .95 .19 -.01 .12 .81 .94 .06 .70 -.01 .57 .41 .52 .53 .71 .01 .37 .58 .51 .52 0.72
.0 .75 .99 .0 .85 .98 .0 .84 .95 -.06 .53 .57 .08 .54 .57 .0 .75 .99 .0 .85 .98 .0 .84 .95 -.06 .53 .57 .08 .54 .57 0.61
.25 .15 .08 .25 .13 .08 .23 .11 .07 .71 .56 .53 .72 .57 .54 .25 .15 .08 .25 .13 .08 .23 .11 .07 .71 .56 .53 .72 .57 .54 0.61
.25 .16 .08 .25 .15 .07 .19 .12 .07 .70 .58 .52 .71 .58 .52 .25 .16 .08 .25 .15 .07 .19 .12 .07 .70 .58 .52 .71 .58 .52 0.61
.0 .87 .99 .0 .93 .98 .0 .90 .96 .0 .58 .56 .08 .44 .59 .0 .87 .99 .0 .93 .98 .0 .90 .96 .0 .58 .56 .08 .44 .59 0.61
Input GT PosENet 入力 GT PosENet 0.81
VGG ResNet VGG ResNet 0.85
Fig. 4. Qualitative results of PosENet based networks corresponding to different ground-truth patterns. フィギュア。 4. 異なる地層パターンに対応するPosENetベースのネットワークの評価結果。 0.66
distribution (G). The key motivation of generating these three patterns is to validate if the model can learn absolute position on one or two axes. 分布(G)。 これら3つのパターンを生成する主な動機は、モデルが1つまたは2つの軸で絶対位置を学習できるかどうかを検証することです。 0.69
Additionally, we also create two types of repeated patterns, horizontal and vertical stripes, (HS, VS). さらに、水平および垂直のストライプ(HS、VS)という2種類の繰り返しパターンも作成します。 0.75
Regardless of the direction, the position information in the multi-level features is likely to be modelled through a transformation by the encoding module. 方向に関わらず、マルチレベル特徴の位置情報は、エンコーディングモジュールによる変換によってモデル化される可能性が高い。 0.77
Our design of gradient ground-truth can be considered as a type of random label because there is no correlation between the input image and the ground-truth with respect to position. 勾配接地トラスの設計は,入力画像と接地トラスとの間に位置に関する相関関係がないため,ランダムラベルの一種とみなすことができる。 0.72
Since the extraction of position information is independent of the content of images, we can choose any image datasets. 位置情報の抽出は画像の内容に依存しないため,任意の画像データセットを選択することができる。 0.82
Meanwhile, we also build synthetic images (Black and White) to validate our hypothesis. 一方で、仮説を検証するために合成画像(黒と白)も構築しています。 0.71
3.1 Existence of Position Information We first conduct experiments to validate the existence of position information encoded in a pretrained CNN model. 3.1 位置情報の存在 まず、訓練済みのCNNモデルにエンコードされた位置情報の存在を検証する実験を行う。 0.73
We report experimental results for the following baselines that are described as follows: VGG indicates PosENet is 本稿では,下記のベースラインについて,以下の実験結果について報告する。 0.60
4 based on the features extracted from the VGG16 model. 4 VGG16モデルから抽出された特徴に基づく。 0.84
Similarly, ResNet represents the combination of ResNet152 and PosENet. 同様に、ResNetはResNet152とPosENetの組み合わせを表します。 0.71
PosENet alone denotes only the PosENet model is applied to learn position information directly from the input image. PosENet単独では、入力画像から直接位置情報を学習するためにPosENetモデルのみを適用する。 0.81
Following the experimental details provided in Appendix A.1, we train the VGG16 [2] and ResNet152 [43] based PosENet on each type of the ground-truth and report the experimental results in Table 1. Appendix A.1で提供される実験の詳細に続いて、VGG16 [2] と ResNet152 [43] ベースの PosENet を各地層でトレーニングし、実験結果を表1で報告する。 0.82
We also report results when we only train PosENet without using any pretrained model to justify that the position information is not driven from prior knowledge of objects. また,事前学習したモデルを用いずにポスネットを訓練し,位置情報がオブジェクトの事前知識から駆動されていないことを正当化した場合の結果を報告する。
訳抜け防止モード: 事前訓練されたモデルを使わずに ポゼットネットを訓練した結果も報告します オブジェクトの事前知識から位置情報が駆動されないことを正当化する。
0.68
Our experiments do not focus on achieving higher performance on the metrics but instead validate how much position information a CNN model encodes or how easily PosENet can extract this information. 実験では,CNNモデルがどの程度の位置情報をエンコードするか,あるいはPosENetがどの程度容易にこれらの情報を抽出できるかを検証する。 0.62
Note that, we only use one convolutional layer with a kernel size of 3×3 without any padding in the position encoding module for this experiment. なお、この実験では、3×3のカーネルサイズを持つ畳み込み層のみを使用し、位置符号化モジュールのパディングは不要である。 0.72
As shown in Table 1, PosENet (VGG16 and ResNet152) can easily extract absolute position information from the pretrained CNN models, especially the ResNet152 based PosENet model. 表1に示すように、PosENet(VGG16およびResNet152)は、事前訓練されたCNNモデル、特にResNet152ベースのPosENetモデルから絶対位置情報を簡単に抽出できます。 0.65
However, training the position encoding module (PosENet in Table 1) without any pretrained encoder achieves much lower scores across different patterns and source images. しかし、プリトレーニングされたエンコーダなしで位置符号化モジュール(テーブル1のposenet)をトレーニングすることで、異なるパターンやソースイメージにまたがるスコアが大幅に低下する。
訳抜け防止モード: しかし、事前訓練されたエンコーダを使わずに位置符号化モジュール(PosENet in Table 1 )を訓練する 異なるパターンとソースイメージのスコアをはるかに低くする。
0.71
This result implies that it is very difficult to extract position information from the input image alone. この結果は,入力画像のみから位置情報を抽出することが極めて困難であることを示している。 0.73
PosENet can extract position information consistent with the ground-truth position map only when coupled with a deep encoder network. PosENetは、深層エンコーダネットワークと結合した場合のみ、地上構造地図と整合した位置情報を抽出することができる。 0.63
As mentioned prior, the generated groundtruth map can be considered as a type of randomization test given that the correlation with input has been ignored [48]. 前述したように、入力との相関が無視されているため、生成された基底写像はランダム化テストの一種とみなすことができる[48]。 0.64
Nevertheless, the high performance on the test sets across different ground-truth patterns reveals that the model is not blindly overfitting to the noise and instead is extracting true position information. それにもかかわらず、異なる接地パターンにまたがるテストセットの高性能は、モデルがノイズに盲目的に過剰にフィットしていないことを示し、代わりに真の位置情報を抽出する。 0.64
However, we observe low performance on the repeated patterns (HS and VS) compared to other patterns due to the model complexity and specifically the lack of correlation between ground-truth and absolute position (last two set rows of Table 1). しかし、モデル複雑性、特に接地と絶対位置(テーブル1の最後の2つのセット行)の相関の欠如のために、繰り返しパターン(HSとVS)上の低パフォーマンスを他のパターンと比較して観察します。 0.80
The H pattern can be seen as one quarter of a sine wave whereas the striped patterns (HS and VS) can be considered as repeated periods of a sine wave which requires a deeper comprehension. Hパターンは正弦波の4分の1と見なすことができ、一方、ストライプパターン(HSおよびVS)は深い理解を必要とする正弦波の繰り返し周期と見なすことができる。 0.79
The qualitative results for several architectures across different patterns are shown in Fig. 異なるパターンにわたるいくつかのアーキテクチャの定性的な結果を図に示します。 0.63
4. We can see the correlation between the predicted and the ground-truth position maps corresponding to H, G, and HS patterns, which further reveals the existence of absolute position information in these networks. 4. 予測されたH, G, HSパターンに対応する地殻位置マップと地殻位置マップの相関は, これらのネットワークにおける絶対位置情報の存在を更に明らかにする。 0.84
The quantitative and qualitative results strongly validate our hypothesis that position information is implicitly encoded in every architecture without any explicit supervision towards this objective. 定量的・定性的な結果は,位置情報が暗黙的にすべてのアーキテクチャにエンコードされるという仮説を強く裏付けるものである。 0.62
Moreover, PosENet without any backbone encoder shows no capacity to output a gradient map based on the synthetic data. さらに、バックボーンエンコーダのないPosENetでは、合成データに基づいて勾配マップを出力する能力がない。 0.73
We explored the effect of image semantics in our prior work [45]. 先行研究におけるイメージセマンティクスの効果について検討した[45]。 0.68
It is interesting to note the performance gap among different architectures specifically the ResNet based models achieve higher performance than the VGG16 based models. 興味深いことに、ResNetベースのモデルはVGG16ベースのモデルよりも高いパフォーマンスを達成している。 0.54
The reason behind this could be the use of different convolutional kernels in the architecture or the degree of prior knowledge of the semantic content. この背後にある理由は、アーキテクチャにおける異なる畳み込みカーネルの使用や、セマンティックコンテンツに関する事前知識の度合いである。 0.66
英語(論文から抽出)日本語訳スコア
Performance of VGG-16 [2] on PASCAL-S images with a varying extent PASCAL-S画像におけるVGG-16[2]の性能 0.86
of the reach of different feed-forward blocks. 異なるフィードフォワードブロックのリーチのことです。 0.55
Deeper layers in CNNs CNNのより深いレイヤ 0.76
TABLE 2 f2 f1 f5 表2 f2 f1 f5 0.75
f4 f3 contain more absolute position information than earlier layers. f4 f3 以前の層よりも 絶対的な位置情報を含んでいる 0.74
SPC↑ MAE↓ .249 .101 .344 .225 .203 .472 .181 .610 .177 .657 .742 .149 .182 .241 .168 .404 .146 .588 .653 .138 .135 .693 .814 .109 SPC↑ MAE↓ .249 .101 .344 .225 .203 .472 .181 .610 .177 .657 .742 .149 .182 .241 .168 .404 .146 .588 .653 .138 .135 .693 .814 .109 0.60
H G 5 Quantitative comparison subject to padding in the convolution layers H G 5 畳み込み層におけるパディングの定量的比較 0.83
used in PosENet and VGG-16 [2] (w/o and with zero padding) on PosENetとVGG-16 [2](w/oと0パディング)で使用されます。 0.76
PASCAL-S images. PASCAL-S画像。 0.71
The role of position information is more obvious with 位置情報の役割はより明確である 0.80
the increase of padding. TABLE 3 パディングの増加。 表3 0.55
Model PosENet PosENet w/ padding=1 PosENet w/ padding=2 VGG16 [2] VGG16 w/o padding モデル PosENet w/ padding=1 PosENet w/ padding=2 VGG16 [2] VGG16 w/o padding 0.76
H SPC↑ MAE↓ .012 .251 .239 .274 .223 .397 .149 .742 .381 .223 H SPC↑ MAE↓ .012 .251 .239 .274 .223 .397 .149 .742 .381 .223 0.73
G SPC↑ MAE↓ -.001 .233 .184 .205 .177 .380 .109 .814 .359 .174 G SPC↑ MAE↓ -.001 .233 .184 .205 .177 .380 .109 .814 .359 .174 0.73
Position encoding results with metrics SPC↑: high is better and MAE↓: low is better, with different padding types. 位置エンコーディングの結果は、メトリックspc/: high is better と mae/: low is better で、異なるパディングタイプで示される。 0.67
† denotes zero-padding based methods. はゼロパディングベースのメソッドを表す。 0.47
Zero padding encodes maximal absolute position information ゼロパディングは最大絶対位置情報を符号化する 0.65
compared to other common adding types. 他の一般的な追加型と比較します 0.62
TABLE 4 3.2 Where is the Position Information Stored? 表4 3.2 位置情報の保管場所は? 0.75
Our previous experiment reveal that the position information is encoded in a pretrained CNN model. 先行実験により, 位置情報がcnnモデルに符号化されていることが明らかとなった。
訳抜け防止モード: 前回の実験では 位置情報は予め訓練されたcnnモデルに符号化される。
0.68
It is also interesting to see whether position information is equally distributed across the stages of the pretrained CNN model. また、事前訓練されたCNNモデルの段階で位置情報が等しく分散されているかどうかも興味深い。 0.57
In this experiment, we train VGG16 based PosENet on the extracted features of all the stages, f1, f2, f3, f4, f5 separately using VGG16 to examine which layer encodes more position information. この実験では,VGG16をベースとしたPosENetを,VGG16を用いて各ステージの抽出された特徴,f1,f2,f3,f4,f5を別々に訓練し,どの層がより多くの位置情報を符号化しているかを調べる。 0.60
Similar to Sec. Secに似ています。 0.58
3.1, we only apply one 3 × 3 kernel in the position encoding module to obtain the position map. 3.1では、位置マップを得るために位置符号化モジュールに3×3のカーネルを1つだけ適用する。
訳抜け防止モード: 3.1 位置符号化モジュールに 3 × 3 のカーネルを 1 つだけ適用する。 位置マップを得る。
0.73
As shown in Table 2, the VGG based PosENet with f5 features achieves higher performance compared to the f1 features. 表2に示すように、f5機能を備えたVGGベースのPosENetはf1機能よりも高いパフォーマンスを実現している。 0.63
This may partially a result of more feature maps being extracted from deeper as opposed to shallower layers, 512 vs 64 respectively. これは、それぞれ512対64の浅い層に対して、より深い層からより多くの特徴写像が抽出された結果の一部かもしれない。 0.56
However, it is likely indicative of stronger encoding of the positional information in the deepest layers of the network where this information is shared by high-level semantics. しかし、この情報は高レベルの意味論によって共有されるネットワークの最深層における位置情報のより強力なエンコーディングを示すものと考えられる。 0.82
We further investigate this effect for VGG16 where the top two layers (f4 and f5) have the same number of features. 上位2層(f4,f5)が同じ特徴を持つvgg16に対するこの効果についてさらに検討する。 0.79
More interestingly, f5 achieves better results than f4. さらに興味深いことに、f5はf4よりも良い結果が得られる。 0.52
This comparison suggests that the deeper feature contains more position information, which validates the common belief that top level visual features are associated with global features. この比較は、より深い特徴がより多くの位置情報を含んでいることを示唆し、トップレベルの視覚的特徴がグローバル機能に関連付けられているという共通の信念を検証します。 0.61
3.3 Where does Position Information Come From? 3.3 位置情報はどこから来るのか? 0.75
We hypothesize that the padding near the border delivers a signal which contains positional information. 我々は境界付近のパッドが位置情報を含む信号を伝達していると仮定する。 0.73
Zero padding is widely used in convolutional layers to maintain the same spatial dimensions for the input and output, with a number of zeros added at the beginning and at the end of both axes, horizontal and vertical. ゼロパディングは、入力と出力のための同じ空間寸法を維持するために畳み込み層で広く使用され、ゼロの数を最初に追加し、両方の軸の終わりに水平および垂直にします。 0.80
To validate this, we remove all the padding mechanisms implemented within VGG16 but still initialize the model with the ImageNet pretrained weights. これを検証するため、VGG16内に実装されているすべてのパディング機構を除去するが、ImageNet事前学習重量でモデルの初期化を行う。 0.63
Note that we perform this experiment only using VGG16 based PosENet. この実験はVGG16ベースのPosENetのみを使用して行います。 0.68
We first test the effect of zero padding used in VGG16, no padding used in the position encoding module. まず,位置符号化モジュールではパディングを使わないvgg16におけるゼロパディングの効果を検証した。 0.68
As we can see from Table 3, the VGG16 model without zero padding achieves much lower performance 表3からわかるように、パディングなしのvgg16モデルは、ずっと低いパフォーマンスを実現します。 0.70
∗ VGG-5 Padding Zero Pad† Partial† [31] Circular Replicate Reflect w/o Pad ∗ VGG-5 パディングゼロパッド(部分)[31]円形リプリケートリフレクションw/oパッド 0.69
Horizontal SPC↑ MAE↓ .216 .406 .213 .424 .236 .296 .218 .241 .242 .212 .204 .243 216 .406 .424 .236 .296 .218 .241 .242 .212 .204 .243 0.72
Gaussian SPC↑ MAE↓ .146 .591 .144 .604 .165 .455 .396 .173 .172 .409 .429 .168 146 .591 .144 .604 .165 .455 .396 .173 .172 .409 .429 .168 0.63
than the default setting (padding=1) on the natural images. 自然画像のデフォルト設定 (padding=1) よりも大きい。 0.81
Similarly, we introduce position information to the PosENet by applying zero padding. 同様に、ゼロパディングを適用して位置情報をPosENetに導入する。 0.72
PosENet with padding=1 (standard zero padding) achieves higher performance than the original (padding=0). padding=1 (standard zero padding) は、オリジナルの (padding=0) よりも高い性能を達成している。 0.69
When we set padding=2 (referred as Full-Conv in recent works [35], [53]), the role of position information is more obvious. パディング=2(最近の作品[35],[53]でFull-Convと参照)を設定すると、位置情報の役割はより明確になります。 0.74
This also validates our experiment in Section 3.1, that shows PosENet is unable to extract noticeable position information because no padding was applied, and the information is encoded from a pretrained CNN model. これはまた、PosENetがパディングが適用されていないため顕著な位置情報を抽出できないことを示し、事前訓練されたCNNモデルから情報をエンコードするセクション3.1の実験を検証します。 0.65
This is why we did not apply zero-padding in PosENet in our previous experiments. これが、以前の実験でPosENetにゼロパディングを適用しなかった理由です。 0.69
Moreover, we aim to explore how much position information is encoded in the pretrained model instead of directly combining with the PosENet. さらに,PosENetと直接結合するのではなく,事前学習したモデルにどの程度の位置情報がエンコードされているかを検討することを目的とする。 0.53
3.4 What Type of Padding Injects Optimal Location Information? 3.4 パディングインジェクトの最適位置情報の種類は? 0.84
With the ultimate goal of revealing characteristics that determine the impact that boundary effects plays in CNNs with respect to absolute position information, we first determine which commonly used padding type encodes the maximum amount of absolute position information. 絶対位置情報に対して境界効果が与える影響を決定づける特徴を明らかにすることを目的として, 一般に使われているパッド型は絶対位置情報の最大量を符号化する。 0.79
We evaluate the ability of different padding types (i.e., zero, circular, reflection, and replicate) to encode absolute position information by extending the experiments from Sec. 我々は,実験をSecから拡張することにより,絶対位置情報を符号化する異なるパディングタイプ(ゼロ,円,反射,複製)の能力を評価する。 0.77
3.1, which only considered zero padding. 3.1 ゼロパディングのみを考慮。 0.63
We first train a simplified VGG classification network [2] with five layers (VGG-5, see Appendix A.2 for implementation details) on Tiny ImageNet [60] for each padding type. まず、各パディングタイプに対してTiny ImageNet [60]上に5層(VGG-5、実装詳細はAppendix A.2を参照)でVGG分類ネットワーク[2]を簡易化した。 0.80
We follow the settings as in Sec. Secの設定に従います。 0.58
3.1: a position encoding read-out module, trained using DUT-S [61] images, takes the features from a frozen VGG-5 model’s last 3.1: DUT-S [61]画像を使用して訓練された位置符号化読み出しモジュールは、凍ったVGG-5モデルの最後の特徴を取ります。 0.71
英語(論文から抽出)日本語訳スコア
6 Fig. 5. 6 フィギュア。 5. 0.71
We consider two location dependant tasks designed to investigate the boundary effects in CNNs. CNNの境界効果を調べるために設計された2つの位置依存タスクを検討する。 0.58
A random CIFAR-10 image is placed on a random grid location and the CNN predicts either C class logits (a: classification), or C class logits for each pixel (b: segmentation). ランダムなCIFAR-10画像がランダムグリッドの位置に配置され、CNNは各ピクセルのCクラスロギット(a:分類)またはCクラスロギット(b:セグメンテーション)のいずれかを予測する。 0.80
layer, pre-trained on Tiny ImageNet, and predicts a gradientlike position map (see top row in Table. Tiny ImageNetで事前トレーニングされたレイヤは、勾配のような位置マップを予測する(テーブルの上位行を参照)。
訳抜け防止モード: layer, pre - 小さいイメージネットでトレーニングし、グラデーションのような位置マップを予測する。 表の上行を参照。
0.68
4). We experiment with two GT position maps, which are the same for every image: (i) ‘horizontal’ and (ii) ‘Gaussian’. 4). 我々は、画像毎に同じ2つのGT位置マップ(i)「水平」と(ii)「ガウス」)を実験する。
訳抜け防止モード: 4). すべての画像で同じgt位置マップを2つ実験し, (i) '水平' を実験した。 そして(ii) ‘gaussian ’。
0.81
We report results using Spearman Correlation (SPC) and Mean Absolute Error (MAE) with input images from PASCAL-S [62]. SPC(Spearman Correlation)とMAE(Mean Absolute Error)を用いてPASCAL-S[62]の入力画像で結果を報告します。 0.78
From Table 4, it is clear that zero padding delivers the strongest position information, compared with replicate, boundary reflection, and circular padding, supporting H-I. 表4から、ゼロパディングはh-iを支持する複製、境界反射、円形パディングと比較して最も強い位置情報を提供することが明らかである。 0.65
Note that partial convolution [31] still pads with zeros, but brightening the image artificially when the convolution kernel overlaps it only partially. 部分畳み込み[31]は、まだゼロでパッドされているが、畳み込みカーネルが部分的に重なると人工的に画像を明るくする。 0.68
Thus, position information is still encoded when partial convolutions are used. これにより、部分畳み込みを使用する場合にも位置情報が符号化される。 0.60
Interestingly, circular padding is often the second most capable padding type. 興味深いことに、円形パディングはしばしば2番目に有能なパディングタイプです。 0.51
We conjecture this is because circular padding takes values from the opposite side of the image where the pixel values are typically less correlated than the directly neighbouring pixels. これは、円形のパディングが画像の反対側から値を取り、通常、直近の画素よりもピクセル値の相関が小さいためと推測する。 0.72
Thus, circular padding often has a value transition at the border, contrasting reflection and replicate which offer little or no signal to the CNN regarding the whereabouts of the image border. したがって、円形パディングはしばしば境界で値遷移を持ち、反射と複製とは対照的であり、画像境界の位置に関するCNNへの信号はほとんどまたはまったく提供しません。 0.69
4 LOCATION DEPENDANT TASKS FOR POSITIONAL ANALYSIS We now go deeper and explore the critical importance of the boundary effect in CNNs with respect to absolute position information by means of experiments designed to reveal these characteristics in a per-location manner. 4 位置分析のための位置依存タスク 我々は, 位置ごとの特徴を明らかにするために設計された実験により, cnn における絶対位置情報に対する境界効果の重要性を深く検討した。 0.77
We begin by describing our experimental settings and the implementation details for the proposed location dependant experiments with grid-based inputs. まず,グリッド型入力を用いた位置依存実験について,実験環境と実装の詳細について述べる。 0.69
These experiments are used to analyze the border effects with respect to position information encoded in CNNs. これらの実験はCNNにエンコードされた位置情報に関する境界効果を分析するために使用されます。 0.66
These consist of location dependant image classification (Fig. これらは位置依存画像分類 (fig) である。 0.67
5 (a) and Sec. 5 (a)およびSec。 0.72
4.3), and image segmentation (Fig. 4.3)と画像分割(図)。 0.80
5 (b) and Sec. 5 (b)およびSec。 0.72
4.4), under different canvas color settings. 4.4)で、キャンバスの色設定が異なる。 0.62
Our experiments are designed with the goal of determining, for different canvas colors (H-II), where in the input CNNs suffer from the border effect (H-IV), and how the position of an image affects the learning of semantic features (H-III). 実験は,異なるキャンバス色(H-II)に対して,入力されたCNNが境界効果(H-IV)に苦しむ場合,画像の位置が意味的特徴(H-III)の学習にどのように影響するかを決定するために設計されている。 0.74
4.1 Experimental Settings and Implementation Details Our image classification and segmentation experiments use ‘location dependant’ inputs (see Fig. 4.1 実験設定と実装の詳細 画像分類とセグメンテーション実験は「位置依存」入力を使用する(図参照)。 0.84
6). The input is a colored canvas (the colors used are Black [0, 0, 0], White [1, 1, 1], and the CIFAR-10 dataset [63] Mean [0.491, 0.482, 0.446]) with an image patch randomly placed on a k×k grid. 6). 入力は着色されたキャンバス(使用される色は黒[0, 0, 0]、白[1, 1, 1]、CIFAR-10データセット[63]平均[0.491, 0.482, 0.446])であり、画像パッチはk×kグリッド上にランダムに配置されている。 0.84
The motivation of using different canvas colors in grid settings is inspired グリッド設定で異なるキャンバス色を使用する動機は、インスピレーションを受ける 0.69
Fig. 6. An illustration of the grid settings (k = 3) and the ground-truth with all three canvas colors for the location dependant tasks. フィギュア。 6. グリッドの設定(k = 3)と、位置依存タスクのためのすべての3つのキャンバス色を持つグラウンドトラスのイラスト。 0.66
by [35] which paste an image patch on a black canvas to determine if a CNN can classify the image location for different resolutions (i.e., top left or bottom right). CNNが異なる解像度(例えば、左上または右下)の画像位置を分類できるかどうかを判断するために、黒いキャンバスに画像パッチを貼り付ける[35]。 0.75
We have shown that zero padding (i.e., black) significantly increases the amount of position information encoded in the network. 我々は、ゼロパディング(すなわちブラック)がネットワークにエンコードされた位置情報の量を大幅に増加させることを示した。 0.74
This suggests the border color may be playing a role in the CNNs position encoding. これは、境界色がcnns位置エンコーディングの役割を果たす可能性があることを示唆している。 0.57
Thus, we paste image patches on various canvas colors and sizes with the motivation of evaluating whether the canvas color have an effect on the amount of position information encoded at various distances to the boundary. そこで, 様々なキャンバスの色や大きさのイメージパッチを貼付し, キャンバスの色が境界までの距離で符号化される位置情報量に影響を及ぼすかどうかを評価する。 0.83
Unless mentioned otherwise, we use CIFAR10 for all experiments. さもなければ、すべての実験にCIFAR10を使用します。 0.76
Given a 32 × 32 CIFAR-10 training image as the image patch, we randomly choose a grid location, L, and place the CIFAR-10 training sample in that location. 32×32のCIFAR-10トレーニングイメージをイメージパッチとして、グリッド位置、Lをランダムに選択し、CIFAR-10トレーニングサンプルをその場所に配置します。 0.76
For example, in the case of a k × k grid, the size of the grid canvas is 32k × 32k, where each grid location has a size of 32 × 32 and k2 total locations. 例えば、k×kグリッドの場合、グリッドキャンバスのサイズは32k×32kであり、各グリッドの位置は32×32とk2の合計位置である。 0.56
Figure 6 shows examples of inputs for the location dependant experiments, and the ground truth for each of the tasks. 図6は、位置依存実験のための入力の例と、各タスクの基底真理を示しています。 0.79
As previously mentioned, all the experiments were run with three different canvas colors to show the impact of the border effect with regards to canvases. 前述のように、すべての実験はキャンバスに関する境界効果の影響を示すために、3つの異なるキャンバスカラーで実行された。 0.78
Note that we normalize only the image patch before pasting it onto the canvas (in other words, the canvas does not get normalized). ただし、canvasにペーストする前に、イメージパッチのみを正規化します(言い換えれば、canvasは正規化されません)。 0.68
For the segmentation ground truth, the ratio of background pixels to object pixels grows exponentially as the grid size increases. セグメント化土台真実では、グリッドサイズが大きくなるにつれて、背景画素と対象画素の比率が指数関数的に増加する。 0.63
However, as the evaluation metric is mean intersection over union (mIoU), the overall performance is averaged between the object classes and the background class, even though the background class makes up the majority of the ground truth labels. しかし、評価指標は結合(mIoU)上の平均交差であるため、背景クラスが基底真理ラベルの大部分を占めているにもかかわらず、全体的なパフォーマンスはオブジェクトクラスとバックグラウンドクラスの間で平均されます。 0.79
All experiments are run for k ∈ {3, 5, 7, 9, 11, 13}. すべての実験は k ∈ {3, 5, 7, 9, 11, 13} に対して行われる。 0.92
To ensure a fair comparison between grid locations, the evaluation protocol consists of running the entire validation set of CIFAR-10 on each individual grid location (i.e., we run the validation set k2 times for a single validation epoch). グリッド位置の公平な比較を確保するため、評価プロトコルは個々のグリッド位置でCIFAR-10の検証セット全体を実行する(すなわち、1つの検証エポックに対して検証セット k2 回実行する)。 0.77
We then average the performance over all grid locations to obtain the overall accuracy. それから私達は全体的な正確さを得るためにすべての格子位置上の性能を平均します。 0.57
The motivation of using different grid sizes (smaller → larger) is to validate if absolute position can be encoded only close to image boundary or far a way from the 異なるグリッドサイズ(より小さい→より大きい)を使う動機は、絶対位置が画像境界近くか遠くまでしか符号化できないかどうかを検証することである。 0.74
英語(論文から抽出)日本語訳スコア
Location dependant (a) image classification and (b) semantic segmentation results on CIFAR-10 dataset under zero/no padding and various canvas colors (Black, White, and Mean) settings. a) 画像分類と(b) セマンティックセグメンテーションの結果は、ゼロ/ノーパディングと様々なキャンバス色(ブラック、ホワイト、ミーン)の下でCIFAR-10データセット上で得られる。 0.74
Note that the canvas colors have noticeable effect on image classification and segmentation performance. キャンバスの色は画像分類とセグメンテーション性能に顕著な影響を及ぼす。 0.74
Additionally, the increase in performance when a black canvas is used in the no padding case compared with white or mean is particularly noteworthy. さらに、黒いキャンバスが白または平均と比較してパディングケースなしで使用される際のパフォーマンスの増加は、特に注目すべきです。 0.73
TABLE 5 7 Padding 表5 7 パディング 0.73
w/o Pad 3×3 B Zero Pad 82.9 82.7 W Zero Pad 82.4 82.1 M Zero Pad 82.5 82.9 w/o Pad 3×3 B Zero Pad 82.9 82.7 W Zero Pad 82.4 82.1 M Zero Pad 82.5 82.9 0.68
w/o Pad w/o Pad w/o Pad w/o Pad 0.71
5×5 82.4 82.6 82.4 82.3 82.4 82.1 5×5 82.4 82.6 82.4 82.3 82.4 82.1 0.43
Image Classification 11×11 81.7 82.3 81.7 36.6 81.2 64.5 画像分類 11×11 81.7 82.3 81.7 36.6 81.2 64.5 0.46
7×7 82.3 82.2 81.7 66.4 82.3 70.4 7×7 82.3 82.2 81.7 66.4 82.3 70.4 0.43
9×9 81.4 81.8 81.8 39.3 81.7 72.9 9×9 81.4 81.8 81.8 39.3 81.7 72.9 0.43
13×13 81.7 78.8 79.7 24.9 80.5 48.7 13×13 81.7 78.8 79.7 24.9 80.5 48.7 0.43
3×3 70.9 69.0 70.4 67.5 70.8 69.2 3×3 70.9 69.0 70.4 67.5 70.8 69.2 0.43
5×5 68.5 67.6 68.6 63.1 70.8 64.0 5×5 68.5 67.6 68.6 63.1 70.8 64.0 0.43
Image Segmentation 11×11 63.1 62.7 58.8 45.8 62.1 53.7 Image Segmentation 11×11 63.1 62.7 58.8 45.8 62.1 53.7 0.49
7×7 66.7 65.1 62.9 59.5 65.8 62.7 7×7 66.7 65.1 62.9 59.5 65.8 62.7 0.43
9×9 65.9 64.9 61.5 54.4 61.7 60.3 9×9 65.9 64.9 61.5 54.4 61.7 60.3 0.43
13×13 62.4 60.3 52.5 41.8 54.8 50.0 13×13 62.4 60.3 52.5 41.8 54.8 50.0 0.43
TABLE 6 Performance comparison of various no padding implementation 表6 各種無パディング実装の性能比較 0.64
techniques using VGG-11 network under 7 × 7 grid, different canvas, VGG-11ネットワークを 7 × 7 グリッドの異なるキャンバスで使用する技術。 0.75
and task settings. ’Res‘ refers to the spatial resolution of the final そしてタスク設定。 res” は最終章の空間的解像度を指す 0.72
prediction map before upsampling to the image resolution. 画像解像度にアップサンプリングする前に予測マップ。 0.73
Results show that the no padding implementation with bilinear interpolation achieves その結果,二線型補間によるパディングなし実装が達成された。 0.56
higher performance than other alternatives. 他の代替品より高い性能。 0.73
Padding Zero Pad No Pad No Pad + BI パディング Zero Pad No Pad + BI 0.65
Res 7×7 3×3 7×7 Res 7×7 3×3 7×7 0.53
Classification Segmentation B 84.5 80.4 80.6 分類分類 B 84.5 80.4 80.6 0.57
B 64.1 9.2 61.9 B 64.1 9.2 61.9 0.53
W 83.8 66.5 70.3 W 83.8 66.5 70.3 0.53
W 58.6 9.6 49.2 W 58.6 9.6 49.2 0.53
image boundary. We report classification and segmentation accuracy in terms of precision and mean intersection over union (mIoU), respectively. 画像境界。 分類精度と分節精度を,各々の精度と平均結合点(mIoU)で報告する。 0.66
We use a ResNet-18 network trained from scratch, unless stated otherwise. 私たちはresnet-18ネットワークをスクラッチからトレーニングしています。 0.65
ResNets with no padding are achieved by setting the padding size to zero in the convolution operation. 畳み込み動作において、パディングサイズをゼロにすることでパディングのない再ネットを実現する。 0.66
For fair comparison between the padding and no padding baseline, we use bilinear interpolation (see Sec. パディングベースラインとパディングベースラインを公平に比較するために、双線型補間を用いる(sec参照)。 0.59
4.2 for discussion) to match spatial resolutions between the residual output and the feature map for the no padding case. 4.2 議論用) noパディングケースの残差出力と特徴マップの間の空間分解能を一致させる。 0.79
4.2 Network Implementation Without Padding We include no padding comparisons for completeness and to contrast the difference in the border effects between networks trained with padding and without padding. 4.2 パディングなしのネットワーク実装 完全性のパディング比較は含まず、パディングなしとパディングなしのネットワーク間の境界効果の違いを対比します。 0.73
For networks without residual connections (e.g., VGG) one can implement a no padding version by simply discarding the padding. 残存接続のないネットワーク(例えばVGG)の場合、パディングを破棄するだけでパディングなしバージョンを実装することができる。 0.65
However, controlling for consistent spatial resolution is crucial when comparing padding types since an inconsistent spatial resolution between padding and no padding would result in a significant performance drop due to the reduced dimensionality of the feature representations. しかし, パディングと非パディング間の不整合空間分解能は, 特徴表現の次元性低下による顕著な性能低下をもたらすため, パディングタイプを比較する際には, 一貫した空間分解能の制御が不可欠である。 0.65
Another solution is to remove all the padding from a VGG network and then padding the input image by a sufficient amount to keep the spatial resolution. 別の解決策は、VGGネットワークからすべてのパディングを削除し、空間解像度を維持するために十分な量で入力画像をパディングすることです。 0.73
However, this is not applicable to the ResNet backbone as there will be spatial misalignment between the features of layers due to the residual connections. しかし、残存接続による層の特徴間の空間的不整合があるため、これはResNetのバックボーンには適用されません。 0.73
Alternatively, one can interpolate the または、それを補間することができる 0.51
output feature map to the same size as the input, which is also the method used in a recent study [54]. 出力特徴マップは入力と同じ大きさで、これは最近の研究で使われている方法でもある [54]。 0.80
In the end, we choose the interpolation implementation because we believe the visual information near the border is be better retained while working for networks with and without residual connections. 最後に,接続が残っていないネットワークで作業する際,境界付近の視覚情報をよりよく維持できると考えるため,補間実装を選択する。 0.73
One concern of using interpolation is how to align the feature maps during the interpolation. 補間の使用に関する懸念の1つは、補間中に特徴マップを整列させる方法である。 0.61
If the features maps are aligned in the center, interpolating the feature map will move the contents of feature map slightly towards the edges. 機能マップが中央に配置されている場合、機能マップを補間すると、機能マップの内容がエッジに向かってわずかに移動します。
訳抜け防止モード: 特徴マップが中央に配置されている場合。 特徴地図を補間する 特徴地図の内容は端の方にわずかに動きます。
0.83
The composite will thus not have the features from the two branches perfectly line up with each other anymore. したがって、コンポジットは2つのブランチの機能を互いに完全に並べ合わなくなる。 0.59
This shifting effect is largest near the edges and smallest near the center, which matches with the observed performance characteristics. このシフト効果はエッジ付近で最大であり、中心付近で最小であり、観測されたパフォーマンス特性と一致する。 0.69
The subsequent convolution layers may be able to undo some of this shifting, but only at the cost of location-dependent kernels that are tailored to fit the offset caused at different parts of the image. その後の畳み込み層は、このシフトのいくつかを解くことができるが、画像の異なる部分で生じるオフセットに合わせて調整された位置依存のカーネルのコストがかかるだけである。 0.72
The other option is to align the feature map based on the corners with the interpolation mainly occurring at the center. もう1つのオプションは、中心で主に発生する補間とコーナーに基づいて特徴マップを揃えることです。 0.70
In this scenario, the shifting effect will be reversed, with the corners being in alignment but the center of the feature map slightly misaligned. このシナリオでは、シフト効果が逆転し、コーナーは整列されているが、フィーチャーマップの中心はわずかに不整合である。 0.70
To this end, we experimentally evaluate various no padding implementation techniques. そこで, 各種無パディング実装手法を実験的に評価した。 0.60
We choose the VGG11 network for this experiment since it is a lightweight network and does not contain any residual connections. この実験でVGG11ネットワークを選択するのは、軽量ネットワークであり、残余接続を含まないためである。 0.79
Table 6 presents the location dependent image classification and segmentation results using VGG-11 network with 7 × 7 grid under different no padding implementation settings. 表6は、異なるパディング実装設定下で7×7グリッドのVGG-11ネットワークを使用して位置依存画像分類とセグメンテーション結果を示します。 0.77
Interestingly, no padding implementation with bilinear interpolation (BI) achieves superior performance than w/o BI in both the tasks; however, the performance difference is more prominent in the segmentation case as the spatial resolution of the final feature map in w/o BI case is lower than the w/ BI case which is crucial in segmentation task. 興味深いことに、両タスクにおいて双線形補間(BI)を用いたパディング実装はw/o BIよりも優れた性能を達成していないが、w/o BIの場合における最終特徴写像の空間分解能がw/o BIケースよりも低いため、セグメンテーションケースでは性能差が顕著である。 0.74
Also, it seems plausible that a network could extract position information from the spatially varying slight misalignment of the feature maps (e.g., in the image center there is no misalignment and at the border there is 1 pixel of misalignment for a 3x3 convolutional layer). また、ネットワークが特徴地図の空間的に変化するわずかな不整合から位置情報を抽出できることも考えられる(例えば、画像の中心には不整合がなく、境界には3x3畳み込み層のための1ピクセルの不整合がある)。 0.85
Taking these factors in consideration, we choose to use the bilinear interpolation-based no padding implementation in all of the following experiments. これらの要因を考慮すると、以下の実験のすべてにおいて、双線形補間に基づく非パディング実装を使用することを選択する。 0.59
英語(論文から抽出)日本語訳スコア
4.3 Location Dependant Image Classification We investigate whether CNNs trained with and w/o padding are equally capable of exploiting absolute position information to predict the class label in all image locations, with respect to the distance from the image boundary and for variable grid sizes. 4.3 位置依存画像分類 画像境界からの距離と可変グリッドサイズに関して、CNNの訓練とw/oパディングがすべての画像位置におけるクラスラベルを予測する絶対位置情報を利用することができるかどうかを調査する。 0.82
The location dependant image classification experiment is a multi-class classification problem, where each input has a single class label and the CNN is trained using the multi-class cross entropy loss (see Fig. 位置依存画像分類実験は多クラス分類問題であり、各入力は単一のクラスラベルを持ち、CNNは多クラス交叉エントロピー損失を用いて訓練される(図参照)。 0.85
5 (a)). Therefore, the network must learn semantic features invariant to the patch location, to reach a correct categorical assignment. 5(a)であった。 したがって、ネットワークはパッチ位置に不変な意味的特徴を学習し、適切なカテゴリ割り当てに到達する必要がある。 0.68
Table 5 (left) shows the location dependant image classification results. 表5(左)は画像分類結果に応じて位置を示す。 0.86
For all canvases, the networks trained with padding are more robust to changes in grid sizes. すべてのキャンバスでは、パディングで訓練されたネットワークは、グリッドサイズの変化に対してより堅牢です。 0.58
In contrast, models trained w/o padding under white and mean canvas settings significantly drop in performance with the increase of grid size, as position information is lost and boundary information cannot be exploited. 対照的に、ホワイトおよび平均キャンバス設定下で訓練されたw/oパディングモデルでは、位置情報が失われ、境界情報が利用できないため、グリッドサイズの増加に伴い性能が著しく低下する。 0.65
However, when the models training w/o padding under black canvas, the classification performance results do not vary since in large grids, an image patch embedded somewhere else than the edge of a black canvas, without padding, is fundamentally the same as having just the picture and zero padding. しかし、黒いキャンバスの下でw/oパディングを訓練するモデルの場合、分類性能の結果は、大きなグリッドでは、パディングなしで黒いキャンバスの端のどこかに埋め込まれた画像パッチは、基本的に写真とゼロパディングを持つのと同じです。 0.65
Interestingly, the canvas colors seem to have a noticeable effect on classification performance (H-II). 興味深いことに、キャンバスの色は分類の性能(H-II)に顕著な効果があるようです。 0.63
The difficulty in separating image semantics from the background signal is due to non-zero canvases creating noisy activations at regions near the image patch border, which is explored further in Section 6. 背景信号と画像のセマンティクスを分離することの難しさは、画像パッチ境界付近の領域でノイズを発生させる非ゼロキャンバスによるものであり、セクション6でさらに調査されている。 0.69
4.4 Location Dependant Image Segmentation The experiment in this section examines similar properties as the previous location dependant image classification, but for a dense labeling scenario. 4.4 位置依存画像分割 このセクションの実験は、以前の位置依存画像分類と同様の性質を検討するが、密なラベリングシナリオについて検討する。 0.72
This task is simply a multi-class per-pixel classification problem, where each pixel is assigned a single class label. このタスクは単にピクセルごとの多重クラス分類の問題であり、各ピクセルは単一のクラスラベルを割り当てられる。 0.75
We follow the same grid strategy as classification to generate a training sample. トレーニングサンプルを生成するために、分類と同じグリッド戦略に従います。 0.77
Since CIFAR-10 is a classification dataset and does not provide segmentation ground-truth, we generate synthetic ground-truth for each sample by assigning the class label to all the pixels in the grid location where the image belongs to (see Fig. CIFAR-10は分類データセットであり、セグメンテーショングラウンドトラスを提供していないため、画像が属するグリッド位置のすべてのピクセルにクラスラベルを割り当てることで、各サンプルの合成グラウンドトラスを生成します(図4参照)。 0.74
5 (b)). Following existing work [16], we use a per-pixel cross entropy loss to train the network and upsample the prediction map to the target resolution using bilinear interpolation. 5(b)であった。 既存の作業 [16] に続いて, 画素単位のクロスエントロピー損失を用いてネットワークをトレーニングし, 両線形補間法を用いて予測マップを目標解像度にアップサンプリングする。 0.73
For evaluation, we compute mIoU at per grid location and take the average to report results. 評価のために,格子当たりのmIoUを計算し,平均値を用いて結果を報告する。 0.70
Image segmentation results are shown in Table 5 (right). 画像分割結果は表5(右)に示される。 0.78
A similar pattern is seen as the classification experiment (Sec. 同様のパターンを分類実験(sec)と呼ぶ。 0.63
4.3). Networks trained with padding consistently outperform networks trained w/o padding, and the difference grows larger as the grid size increases. 4.3). パディングで訓練されたネットワークは、w/oパディングをトレーニングしたネットワークよりも優れており、グリッドサイズが大きくなるにつれて差が大きくなる。 0.65
Contrasting the classification experiment, the performance of networks with padding decreases slightly as the grid size increases. 分類実験とは対照的に, グリッドサイズの増加に伴い, パディングによるネットワークの性能はわずかに低下する。 0.73
The reason for this is that the mIoU metric is averaged across all categories including the background, so object pixels are equally weighted in the mIoU calculation even though the ratio of background pixels to object pixels increases dramatically for larger grid sizes. この理由は、背景を含むすべてのカテゴリでmIoUメトリックが平均されるため、背景ピクセルとオブジェクトピクセルの比率がより大きなグリッドサイズで劇的に増加するにもかかわらず、オブジェクトピクセルはmIoU計算で等しく重み付けされるためです。 0.81
For the no padding case, we observe similar patterns to the classification experiment as the white and mean canvas scenarios suffer more from a ノーパディングの場合、分類実験と類似したパターンを観察し、白と平均のキャンバスのシナリオがより苦しむようにした。 0.75
TABLE 7 8 Performance comparison between ResNet18 and BagNet variants to 表7 8 ResNet18 と BagNet の変種間の性能比較 0.80
demonstrate the relationship between these networks in terms of encoding position information. これらのネットワーク間の関係を 位置情報のエンコードで示します 0.83
Interestingly, BagNets can classify 興味深いことに、BagNetsは分類できる 0.55
images in absolute locations furthest away from the boundary but fail to 境界から最も離れた絶対的な場所での画像は失敗しますが 0.66
precisely segment objects far from the boundary. 境界から離れて正確にセグメントオブジェクト。 0.80
Network ResNet18 [43] ResNet50 [43] BagNet33 [64] BagNet17 [64] BagNet9 [64] ネットワーク ResNet18 [43] ResNet50 [43] BagNet33 [64] BagNet17 [64] BagNet9 [64] 0.88
Image Classification Segmentation B 82.4 83.1 82.7 80.6 70.1 画像分類 B 82.4 83.1 82.7 80.6 70.1 0.56
W 82.4 83.2 81.4 80.7 66.8 W 82.4 83.2 81.4 80.7 66.8 0.48
B 68.5 70.1 30.4 34.5 30.6 B 68.5 70.1 30.4 34.5 30.6 0.48
W 68.6 69.7 32.2 34.7 28.7 W 68.6 69.7 32.2 34.7 28.7 0.48
Fig. 7. Comparison of BagNet33 and ResNet18 semantic segmentation results on different locations of a 5× 5 grid under the white canvas setting. フィギュア。 7. bagnet33とresnet18のセマンティクスセグメンテーションの比較は、ホワイトキャンバス設定下の5×5グリッドの異なる場所における結果である。 0.65
Confidence maps are plotted with the ‘cividis’ colormap, where yellow and blue indicates higher and lower confidence, respectively. 信頼マップは、黄色と青はそれぞれ高い信頼度と低い信頼度を示す'cividis'カラーマップでプロットされます。
訳抜け防止モード: 信頼度マップは‘cividis’カラーマップでプロットされる。 黄色と青はそれぞれ高い自信と低い信頼を示す。
0.78
large grid size than the black canvas case. 黒キャンバスケースよりも大きなグリッドサイズ。 0.64
This finding further suggests that, independent of the task, a black canvas injects more location information to a CNN (H-II), regardless of the semantic difficulty, than a white or mean colored canvas, which is further explored in Sec. この発見は、タスクとは無関係に、黒いキャンバスは、セマンティックな難しさに関係なく、Secでさらに探索されている白または平均色のキャンバスよりも、CNN(H-II)により多くの位置情報を注入することを示唆しています。 0.55
6. 4.5 Relationship Between Receptive Field Size and Boundary Effects Our prior work [45] studies the impact of varying kernel sizes in the position encoding readout module while extracting absolute position information from a pretrained CNN. 6. 4.5 受容場サイズと境界効果の関係 [45] は,事前学習したcnnから絶対位置情報を抽出しつつ,位置符号化読み出しモジュールにおけるカーネルサイズの変化の影響を考察する。 0.81
The results suggest that larger kernel sizes are likely to capture more position information than smaller sizes. その結果、より大きなカーネルサイズは、より小さなサイズよりも多くの位置情報をキャプチャする可能性が示唆された。
訳抜け防止モード: その結果は より大きなカーネルサイズは、小さなサイズよりも多くの位置情報をキャプチャする可能性が高い。
0.66
A logical next line of inquiry from these results is how the receptive field of a network effects the ability to encode position information. これらの結果からの論理的な次の照会は、ネットワークの受容フィールドが位置情報をエンコードする能力にどのように影響するかである。 0.69
To this end, we now evaluate the relationship between a network’s effective receptive field and its ability to encode position information by comparing two types of networks, ResNets and BagNets [64]). そこで本研究では,ResNets と BagNets [64] の2種類のネットワークを比較することにより,ネットワークが有効な受信フィールドと位置情報をエンコードする能力との関係を評価する。 0.90
BagNets are a modified version of ResNet50 that restrict the effective receptive field of the CNN to be a fixed maximum, i.e., either 9, 17, or 33 pixels. BagNets は ResNet50 の修正版であり、CNN の有効受容フィールドを 9 ピクセル、17 ピクセルまたは 33 ピクセルの固定最大値に制限している。 0.76
The results of this comparison are presented in Table 7 where both the ResNet50 and the BagNet variants are trained on CIFAR-10 for location dependent image classification and segmentation under different canvas settings. この比較の結果は表7で示され、ResNet50とBagNetのバリエーションはCIFAR-10で訓練され、異なるキャンバス設定下で位置依存画像分類とセグメンテーションが行われます。 0.75
Interestingly, 興味深い。 0.53
英語(論文から抽出)日本語訳スコア
I b in the k-th semantic concept, which will be preserved in the latent representations E(I a) and E(I b), only if E encodes the k-th semantic concept. I b は k 番目の意味概念であり、E が k 番目の意味概念を符号化している場合に限り、潜在表現 E(I a) と E(I b) に保存される。
訳抜け防止モード: I b in the k - th semantic concept, which will be save in the latent representations E(I a ) と E(I b ) は、 E は k - th のセマンティック概念をエンコードする。
0.88
Following [42], we approximate the mutual information between E(I a) and E(I b) with the correlation of each dimension, i, in the latent representation. 42] に続いて, e(i a) と e(i b) の相互情報と, 潜在表現における各次元 i の相関関係を近似する。 0.74
Cov(cid:0)E (I a)i , E(cid:0)I b(cid:1) Cov(cid:0)E (I a)i , E(cid:0)I b(cid:1) 0.92
(cid:1) i (cid:1) 私は 0.66
Var (E (I a)i) Var (E (I b)i) Var (E (I a)i) Var (E (I b)i) 0.85
, (1) Correlationk = Ck = , (1) 相関k = Ck = 0.80
9 (cid:88) 9 (cid:88) 0.82
i (cid:113) 私は (cid:113) 0.66
(cid:36) (cid:80)F (cid:36) (cid:80)F 0.81
(cid:37) We assume that the residual factor has a maximum dimension of |z| (the total dimension of the latent representation) and use the softmax equation to get the resulting dimension: (cid:37) 剰余係数は |z| の最大次元(潜在表現の総次元)を持つと仮定し、その結果の次元を得るのにsoftmax方程式を用いる。 0.78
|zk| = exp Ck f =0 exp Cf zk| = exp Ck f =0 exp Cf 0.84
, N (2) where |zk| is the dimension of the semantic factor k, and F is the total number of semantic factors including the residual factor. , N (2) ここで |zk| は意味因子 k の次元であり、F は残存因子を含む意味因子の総数である。 0.82
Note we do not need an estimate of the absolute mutual information for estimating the proportion of location and semantic dimensions. 位置と意味寸法の割合を推定するには、絶対的な相互情報の推定は必要ありません。 0.70
Only the differences between the mutual information for position and semantic class for image pairs are used to quantify the ratio of location and semanticspecific neurons. 位置と意味特異的ニューロンの比率を定量化するために、画像ペアの位置と意味クラスの相互情報の違いのみを用いる。 0.77
Therefore, the relative difference is still meaningful and only the absolute numbers might not be. したがって、相対差はいまだ有意義であり、絶対数だけがそうでないかもしれない。 0.63
We generate image pairs which share one of two semantic concepts: (i) location or (ii) semantic class. i)ロケーションまたは(ii)セマンティッククラスという2つのセマンティック概念の1つを共有するイメージペアを生成します。 0.68
For example, the image pair sharing the location factor (see Fig. 例えば、位置因子を共有するイメージペア(図を参照)。 0.75
8 top row) differs in the class and canvas color, while the pair on the bottom row shares the semantic class but differs in canvas color and location. 8の上行)はクラスとキャンバスの色が異なるが、下行のペアはセマンティクスクラスを共有しているが、キャンバスの色と位置が異なる。 0.67
With this simple generation strategy, we can accurately estimate the number of dimensions in the latent representation which encodes the k-th semantic factor. この単純な生成戦略により、k番目の意味因子を符号化する潜在表現における次元の数を正確に推定できる。 0.65
Note that the remaining dimensions not captured in either the location or semantic class is allocated to the residual semantic factor, which by definition will capture all other variability in the latent representation, z. 位置または意味クラスでキャプチャされていない残りの次元は、残存意味因子に割り当てられ、定義により、潜在表現 z の他のすべての可変性がキャプチャされる。 0.67
Table 8 shows the estimated dimensionality for the semantic factors location and class. 表8は、意味要因の位置とクラスの推定次元を示しています。 0.71
The latent representation used is the last stage output of a ResNet-18 before the global average pooling layer. 使用される遅延表現は、グローバル平均プーリング層の前にResNet-18の最終段階の出力です。 0.67
We used the networks from Sec. Secのネットワークを使いました。 0.74
4 which are trained for segmentation (left) and classification (right) with the appropriate background (i.e., black on the top and white on the bottom row) and grid settings. これは、セグメンテーション(左)と分類(右)のために訓練され、適切な背景(上が黒、下行が白)とグリッドの設定がある。 0.64
The results clearly show that networks trained with zero-padding contain more dimensions which encode the semantic factor ‘location’ (H-I). その結果、ゼロパディングで訓練されたネットワークは、意味因子「位置」(H-I)を符号化するより多くの次元を含むことが明らかとなった。 0.51
Further, Table 8 shows that there is a positive correlation between the encoding of location and the encoding of semantics, i.e., a larger number of dimensions encoding location implies a larger number of neurons encoding semantics, supporting H-III. さらに、テーブル8は、位置の符号化と意味論の符号化の間に正の相関があることを示し、つまり、位置を符号化する多くの次元は、H-IIIをサポートする多くのニューロンを意味する。 0.65
6 PER-LOCATION ANALYSIS In this section, we take advantage of the grid-based learning paradigm and conduct further evaluations on a per-location basis to test H-I, H-II, H-III, and H-IV. 6 PER-LOCATION Analysis この節では,グリッドベースの学習パラダイムを活用し,H-I,H-II,H-III,H-IV のテストを行う。 0.74
In particular, we analyze the relationship between zero padding and the border effect. 特に,ゼロパディングと境界効果の関係を分析した。 0.56
We then show quantitative and qualitative results which reveal strong evidence that zeros, whether as a canvas or padding, inject maximal location bias. 次に,ゼロがキャンバスであれパディングであれ,最大位置バイアスを注入する強い証拠を示す定量的・定性的な結果を示す。 0.69
Fig. 8. Sample pair generation reflecting two semantic concepts (location and semantic class). フィギュア。 8. 2つの意味概念(ロケーションクラスとセマンティッククラス)を反映したサンプルペア生成。 0.65
Dimensionality estimation (%) of two semantic concepts (location and semantic category) under different tasks and settings. 異なるタスクと設定下での2つの意味概念(位置と意味圏)の次元推定(%)。 0.77
Networks trained with zero-padding and black canvas encode more location specific ネットワークの訓練 ゼロパディングとブラックキャンバスで、より特定の位置をエンコードする 0.65
dimensions compared to white canvas and no padding. 寸法は白いキャンバスに比して、パディングなし。 0.64
TABLE 8 ∗ Grid Padding 表8 ∗グリッドパディング 0.57
B 7×7 W 7×7 B 7×7 W 7×7 0.71
Zero Pad No Pad Zero Pad No Pad ゼロパッドなし ゼロパッドなし ゼロパッドなし 0.65
Segmentation Classification |zClass| |zClass| |zLocation| |zLocation| 15.2% 14.9% 12.7% 12.6% 12.7% 12.8% 12.1% 11.9% 12.5% 12.3% 12.2% 12.1% 10.9% 10.9% 11.5% 11.6% セグメンテーション分類 |zClass| |zClass| |zLocation| |zLocation| 15.2% 14.9% 12.7% 12.7% 12.8% 12.1% 12.1% 12.5% 12.3% 12.1% 12.1% 10.9% 11.5% 11.6% 0.63
BagNets variants can classify image positioned further away from the boundary similar to the ResNet18 network. BagNetsのバリアントは、ResNet18ネットワークに似た境界からさらに離れた位置の画像を分類できます。 0.69
Note that the image patch size is 32 × 32 and so the receptive field of the BagNet33 and 17 can cover a large portion of the patch. 画像パッチのサイズは32 × 32であるため、BagNet33および17の受容フィールドはパッチの大部分をカバーすることができます。 0.76
This is why the BagNet9 suffers more in performance. これが、BagNet9がパフォーマンスに苦しむ理由である。 0.79
For semantic segmentation, the performance is significantly lower for all BagNet variants. セマンティックセグメンテーションでは、すべてのBagNet変種ではパフォーマンスが大幅に低下する。 0.63
These results show that the network with larger receptive field and zero padding can handle boundary effects more effectively by exploiting absolute position information. これらの結果から, 受動場が大きく, パッドがゼロであるネットワークは, 絶対位置情報を利用して境界効果をより効果的に処理できることがわかった。 0.62
Figure 7 shows the probability heatmaps of BagNet33 and ResNet18 segmentation predictions for different grid locations, L, for a 5 × 5 grid. 図7は、5×5グリッドの異なるグリッド位置、LのBagNet33とResNet18セグメンテーション予測の確率ヒートマップを示しています。 0.67
Due to the restricted receptive field, BagNet33 have difficulty segmenting images precisely particularly near the border. 受容領域が制限されているため、BagNet33は特に境界付近で画像のセグメンテーションが困難である。 0.65
In summary, there is a strong correlation between boundary effects and effective receptive field size in the absolute position encoding in CNNs. 要約すると、CNNの絶対位置符号化において、境界効果と有効受容フィールドサイズとの間に強い相関がある。 0.69
5 INTERPRETING REPRESENTATIONS FOR DIMENSIONALITY ESTIMATION Previous works [42], [65], [66] proposed various mechanisms to interpret different semantic concepts from latent representations by means of quantifying the number of neurons which encode a particular semantic factor, k. Given a pretrained CNN encoder E(I) = z where z is a latent representation and given an image pair (I a, I b) ∼ p(I a, I b|k) which are similar in the k-th semantic concept, we aim to estimate the dimensionality of the semantic factor, zk, that represents this concept in the latent representation. 5 INTERPRETING REPRESENTATIONS FOR DIMENSIONALITY ESTIMATION Previous works [42], [65], [66] proposed various mechanisms to interpret different semantic concepts from latent representations by means of quantifying the number of neurons which encode a particular semantic factor, k. Given a pretrained CNN encoder E(I) = z where z is a latent representation and given an image pair (I a, I b) ∼ p(I a, I b|k) which are similar in the k-th semantic concept, we aim to estimate the dimensionality of the semantic factor, zk, that represents this concept in the latent representation. 0.87
A positive mutual information between I a and I b implies a similarity of I a and I a と I b の間のポジティブな相互情報は、I a と I b の類似性を意味する。 0.67
英語(論文から抽出)日本語訳スコア
11 × 11 Grid 11 × 11 グリッド 0.79
13 × 13 Grid 13 × 13 グリッド。 0.85
Black No Padding White No padding Mean No padding 黒なしパディングホワイトなしパディング平均パディングなし。 0.52
11 × 11 Grid 11 × 11 グリッド 0.79
Zero Padding 13 × 13 Grid ゼロパディング 13 × 13 グリッド。 0.65
10 ) % ( e c n e r e f f i 10 ) % ( e c n e r e f f i 0.85
D y c a r u c c A D y c a r u c c A 0.85
0 −20 −40 −60 0 −20 −40 −60 0.80
0 −20 −40 −60 0 −20 −40 −60 0.80
0 1 2 3 4 5 0 1 2 3 4 5 0.85
0 1 2 3 4 5 0 1 2 3 4 5 0.85
6 Distance to Closest Border 6 最境界までの距離 0.78
Distance to Closest Border 0 最境界までの距離 0 0.78
−5 −10 −15 −5 −10 −15 0.78
−20 0 −5 −10 −20 0 −5 −10 0.80
0 1 2 3 4 5 0 1 2 3 4 5 0.85
6 Distance to Closest Border 6 最境界までの距離 0.78
0 1 2 3 4 5 0 1 2 3 4 5 0.85
Distance to Closest Border Fig. 最境界までの距離 フィギュア。 0.57
9. Location dependant image classification (left two) and segmentation (right two). 9. 位置は画像分類(左2)とセグメンテーション(右2)に依存する。 0.82
Results show the accuracy difference between padding and no padding under three canvas settings, at various distances to the border. その結果,国境までの距離の異なる3つのキャンバス環境下でのパディングとパディングの精度の差がみられた。 0.67
6.1 Distance-to-Border Analysis: What Input Regions Suffer Most from Border Effects? 6.1 ボーダー間距離分析: ボーダーの影響から最も引き起こされる入力領域は? 0.66
First, we analyze the image classification and segmentation results reported in Secs. まず,secで報告された画像分類とセグメンテーション結果を分析した。 0.70
4.3 and 4.4, with respect to the distance from the closest border which will allow us to answer this question. 4.3と4.4は、最も近い国境からの距離で、この質問に答えることができます。 0.83
To obtain the accuracy at each distance, we average the accuracies over all grid locations with the same distance to the nearest border (e.g., a distance to a border of zero refers to the average accuracy of the outermost ring of grid locations). 各距離の精度を得るために、我々は最も近い境界(例えば、ゼロの境界への距離は、グリッド位置の最も外側のリングの平均精度を参照)に同じ距離を持つすべてのグリッド位置上の精度を平均します。 0.80
Figure 9 shows the accuracy difference between the padding baseline (the blue horizontal line) and the no padding cases. 図9は、パディングベースライン(青い水平線)と無パディングケースとの精度差を示している。 0.68
Interestingly, the accuracy difference is higher at grid locations close to the border and decreases towards the image center. 興味深いことに、境界付近のグリッド位置での精度差は高く、画像中心に向かって減少する。 0.73
This analysis strongly suggests that zero padding significantly impacts the border effect, and injects position information to the network as a function of the object location relative to the distance of the nearest border. この分析は、ゼロパディングが境界効果に有意な影響を与えることを強く示唆し、最も近い境界の距離に対する物体の位置の関数としてネットワークに位置情報を注入する。 0.82
In contrast, the no padding case fails to deliver any position information at the border locations which leads to a significant performance drop. これとは対照的に、パディングケースは境界位置の位置情報を供給できないため、性能が大幅に低下する。 0.61
Also note that there is a substantial difference in performance at the center of the image, at the farthest distance from the border, supporting H-IV. また、画像の中心で、境界から最遠距離でH-IVをサポートする性能にかなりの差があることにも注意が必要である。 0.75
Note that of the three canvases for the no padding case, the black canvas yields the lowest drop in relative performance when comparing the center region to locations near the border (H-II). ノーパディングケース用の3つのキャンバスのうち、中央領域と境界付近(H-II)を比較すると、黒いキャンバスは相対的なパフォーマンスの最低低下をもたらすことに注意してください。 0.64
More distance-to-border analysis results can be found in Sec. より距離と境界の分析結果は、Secで見つけることができます。 0.48
A.3.2 in the appendix. 6.2 Are Border Effects Only at the Border? 付録のA.3.2。 6.2 国境効果は国境のみか? 0.64
While intuition might suggest the border effect occurs solely at the border, it is natural to analyze if other regions in the input space also suffer from the border effect. 直感は境界効果が境界だけで起こることを示唆するかもしれないが、入力空間内の他の領域も境界効果に苦しむかどうかを分析することは自然である。 0.70
Figure 10 compares filter activations with and without zero padding. 図10は、フィルタアクティベーションとゼロパディングの有無を比較します。 0.72
Note that filter activations are randomly sampled from the feature map for the specific layer. フィルタのアクティベーションは、特定のレイヤの機能マップからランダムにサンプリングされます。 0.70
Activations found near the border propagate less information through the network during the forward pass due to the limited amount of connectivity to downstream layers compared to activations at the center, as discussed in [44]. 境界付近で発見されたアクティベーションは,[44]で議論されているように,下流層への接続性が中央のアクティベーションと比較して限られているため,フォワードパス時のネットワーク経由の情報が少ない。 0.75
Further, the convolution cannot fully overlap the border regions without padding and thus will not recognize objects as well. さらに、畳み込みはパディングなしで境界領域を完全にオーバーラップすることはできないため、オブジェクトも認識できない。 0.71
This phenomenon can be seen in Fig. この現象は図に見ることができる。 0.79
10 (bottom-right), where the activations for grid location 7 are significantly reduced in the no padding case. グリッド位置7の活性化が無パディングケースで有意に減少する10(下右)。
訳抜け防止モード: 10(下~右)で noパディングケースでは、グリッド位置7のアクティベーションが大幅に低減される。
0.70
Interestingly, for grid location 25 (i.e., center), there is also a visible difference in the activation space. 興味深いことに、グリッド位置25(すなわち中心)については、アクティベーションスペースにも目に見える違いがある。 0.75
Here, Fig. ここでは フィギュア。 0.57
10. Filter activation visualization for the classification task on CIFAR10 with a white background and 7 × 7 grid size. 10. ホワイト背景と7×7グリッドサイズのcifar10の分類タスクにおけるフィルタ活性化の可視化 0.82
It is clear that zero padding provides richer information and larger activations downstream, particularly at locations near the boundary (e.g., L = 7). ゼロパディングはよりリッチな情報を提供し、下流、特に境界付近(例えば l = 7)でより大きなアクティベーションを提供することは明らかである。 0.68
The activations are visualized using the ‘gray’ colormap. アクティベーションは‘gray’カラーマップを使って視覚化される。 0.70
activations found for the no padding case are blurred and noisy which contrasts the tight square shaped activations when zero padding is used. 無パディングケースのアクティベーションはぼやけており、ゼロパディングを使用した場合のタイトな四角形のアクティベーションとは対照的です。 0.61
While border effects mainly impact regions near the border, these results show clear evidence that input locations at the center of the image are also impacted with a lack of padding which is evidence supporting H-IV. 境界効果は主に境界付近に影響を及ぼすが、これらの結果は画像中央の入力位置がH-IVを支持する証拠であるパディングの欠如によっても影響していることを示す。 0.76
This also explains the performance drop at the center of the grid in Fig. これはまた、図中のグリッドの中央でのパフォーマンス低下を説明します。 0.75
9 (left). 6.3 Does Encoding Location Enable the Learning of Semantics? 9番(左)。 6.3 エンコードロケーションはセマンティクスの学習を可能にするか? 0.72
In Sec. 5, we provided quantitative evidence that reveals the correlation between the number of neurons encoding position and semantic information (H-III). Sec。 5) 位置を符号化するニューロンの数と意味情報(h-iii)の関係を明らかにする定量的な証拠を提供した。 0.58
We further investigate this phenomenon to see how position information, by means of zero padding, allows for richer semantics to be learned for the tasks of image classification and semantic segmentation. さらに,画像分類やセマンティクスセグメンテーションのタスクにおいて,位置情報がゼロパディングによってよりリッチなセマンティクスをどのように学習できるかを確認するために,この現象をさらに検討する。 0.76
The heatmaps in Fig. 11 show segmentation predictions for different grid locations, L, of a 7 × 7 grid. 図のヒートマップ。 11では,7×7グリッドの異なるグリッド位置,Lのセグメンテーション予測が示されている。 0.66
When no padding is used CNNs have difficulty segmenting images near the border (highlighted with circles in Fig. パディングが使用されていない場合、CNNは国境付近の画像のセグメント化が困難です。 0.60
11) except when a black canvas is used. 11) 黒いキャンバスが使用される場合を除いて。 0.79
However, for locations near the center of the image, reduced position information due ただし、画像の中央付近の位置については、位置情報が減少します。 0.76
英語(論文から抽出)日本語訳スコア
11 Fig. 11. 11 フィギュア。 11. 0.71
Sample predictions of semantic segmentation on different locations of a 7 × 7 grid under three background settings. 3つの背景設定下での7×7グリッドの異なる位置のセマンティックセグメンテーションのサンプル予測。 0.80
Confidence maps are plotted with the ‘cividis’ colormap, where yellow and dark blue indicates higher and lower confidence, respectively. 信頼マップは「シビディ」カラーマップでプロットされ、黄色とダークブルーはそれぞれ高い信頼度と低い信頼度を示す。 0.69
Clearly, the encoding of absolute position information, by means of zero padding or a black canvas, has a stark effect on a CNN’s ability to segment semantic regions by learning distinctive features. 明らかに、絶対位置情報のエンコーディングは、ゼロパディングまたは黒いキャンバスによって、特徴的な特徴を学ぶことによってセマンティック領域をセグメント化するCNNの能力にスターク効果をもたらします。 0.70
6.4 Canvas Analysis: Why Do Explicit Zeros Inject Location Information? 6.4 Canvas分析:なぜゼロが位置情報を注入するのか? 0.72
We now explore what enables CNNs to encode positional information when zeros exist at the boundary (i.e., as padding or canvas (H-I)) by analyzing the activations of a network trained for the location dependant segmentation task. CNNが境界(すなわち、パディングまたはキャンバス(H-I))にゼロが存在するときに位置情報をエンコードする方法については、位置依存セグメンテーションタスクのために訓練されたネットワークのアクティベーションを分析して検討する。 0.72
For a k × k grid, the ratio of canvas pixels to total pixels is k2−1 . k × k グリッドの場合、総ピクセルに対するキャンバスピクセルの比率は k2−1 である。 0.71
This implies that the vast majority of labels will be the k2 background class, and therefore the majority of filters should focus on correctly labelling the canvas. これは、ほとんどのラベルがk2のバックグラウンドクラスになることを意味するため、フィルタの大部分はキャンバスを正しくラベリングすることに集中する必要がある。 0.63
To determine if this is true for all canvases, we visualize randomly sampled filter activations (see Fig. これがすべてのキャンバスに当てはまるかどうかを判断するために、ランダムにサンプリングされたフィルタアクティベーションを可視化する(図参照)。 0.56
13) for networks trained without padding for the location dependant segmentation task. 13) 位置依存セグメンテーションタスクのためにパディングなしで訓練されたネットワーク。 0.77
The activations are visualized using the ‘gray’ colormap, where light and dark intensities denote high and low activations, respectively. アクティベーションは‘グレー’カラーマップを使って視覚化され、光と暗い強度がそれぞれ高いアクティベーションと低いアクティベーションを示す。 0.72
Note that the activations are taken from the output of the convolutional layer and are normalized to between [0, 1] before plotting. なお、アクティベーションは畳み込み層の出力から取り出され、プロットする前に[0, 1]の間で正規化される。 0.72
Even at the earlier layers (e.g., layer 7), there is a clear difference in the patterns of activations. 初期の層(例えば7層)でも、活性化のパターンに明確な違いがある。 0.66
The majority of filters have low activations for the image region, but high activations for the background region. フィルタの大部分は画像領域のアクティベーションが低いが、背景領域のアクティベーションが高い。
訳抜け防止モード: フィルタの大部分は画像領域のアクティベーションが低くなります。 しかし背景地域のための高い活発化。
0.80
In contrast, the white and mean canvases have mostly low activations for the canvas but high activations for the image. 対照的に、白と平均のキャンバスは、主にキャンバスの活性化が低いが、画像の活性化は高い。 0.63
Interestingly, particularly at layer 17 (the last convolution layer), the activations for the black background are reminiscent of oriented filters (e.g., Gaussian derivative filters) in a number of different orientations and locations, indicating they can capture more diverse input signals compared to the white and mean canvases, which consistently activate over the center of the input region. 興味深いことに、特に第17層(最後の畳み込み層)では、黒背景の活性化は、複数の異なる方向と位置の配向フィルタ(例えばガウス微分フィルタ)に似ており、入力領域の中央で一貫して活性化される白と平均のキャンバスと比較して、より多様な入力信号をキャプチャすることができることを示している。 0.71
Figure 13 clearly demonstrates that zeros at the boundary, in the form of a black canvas, allows easier learning of semantics and absolute position for CNNs compared to other values supporting H-II. 図13は、黒いキャンバスの形で境界のゼロが、H-IIをサポートする他の値と比較して、CNNのセマンティクスと絶対位置の学習を容易にすることを示しています。 0.60
In summary, we have shown strong evidence that despite the image boundary suffering the most, all regions in the input are impacted by the boundary effect with a lack of zero padding (H-IV). 要約すると、画像境界が最も苦しむにもかかわらず、入力中の全ての領域はゼロパディング(h-iv)の欠如による境界効果の影響を受けているという強い証拠が示されている。 0.70
Further, using zero padding to combat border effects and encode position information concurrently enables CNNs to also learn richer and more separable semantic features (H-III). さらに、ゼロパディングを使って境界効果に対抗し、同時に位置情報をエンコードすることで、cnnはより豊かで分離可能な意味的特徴(h-iii)を学ぶことができる。
訳抜け防止モード: さらに、ゼロパディングを用いて境界効果に対処し、同時に位置情報を符号化する。 CNNはよりリッチで分離可能なセマンティック機能(H - III)も学べる。
0.58
Finally, we visualized features for 最後に 特徴を視覚化し 0.74
Fig. 12. t-SNE [67] visualization of the CIFAR-10 test set classification logits for a 7 × 7 grid. フィギュア。 12. t-SNE [67] 7 × 7 グリッドの CIFAR-10 テストセット分類ログの可視化。 0.65
Examples of a single input are given in the top row, while the embedding visualizes the entire dataset (bottom two rows). 1つの入力の例はトップ列で与えられ、埋め込みはデータセット全体(ボトム2行)を視覚化する。 0.76
The semantic separability effect is particularly pronounced at location L = 7. 意味的分離性効果は特に位置 l = 7 で発音される。 0.77
to no padding greatly reduces the network’s confidence in semantic encodings. to nopaddingは、セマンティックエンコーディングに対するネットワークの信頼性を大幅に低下させます。 0.66
In contrast, zero padding is consistent and confident in segmenting objects across all the grid locations and canvas colors. 対照的に、ゼロパディングは一貫性があり、すべてのグリッドロケーションとキャンバスカラーにまたがるオブジェクトのセグメンテーションに自信を持っている。 0.56
Further, we use t-SNE [67] to visualize the classification logits in Fig. さらに,t-sne [67] を用いて図の分類を可視化する。 0.67
12. Note that the single input examples at the top row are shown merely to highlight the location L, and that the second and third rows show embeddings of the entire test set. 12. トップ行にある単一の入力例は、単に位置 L を強調するために示され、第2行と第3行はテストセット全体の埋め込みを示すことに注意してください。 0.82
The separability of the semantic classes is significantly improved when padding is used, and the effect is particularly pronounced at locations near the border (L = 7). セマンティッククラスの分離性はパディングを使用する場合に有意に改善され、その効果は境界付近(L = 7)で特に顕著である。 0.71
This further supports the hypothesis that absolute position information, by means of zero padding, enables CNNs to learn more robust semantic features, which in turn allows for greater separability in the prediction logits. これにより、絶対位置情報がゼロパディングによってCNNがより堅牢なセマンティクス機能を学ぶことができるという仮説がさらに支持され、予測ロギットの分離性が向上します。 0.61
More analysis results can be found in Sec. より詳細な分析結果はsecで確認できる。 0.67
A.4 in the appendix. 付録のA.4。 0.62
英語(論文から抽出)日本語訳スコア
Texture recognition results on two datasets with different padding types. 異なるパディングタイプを持つ2つのデータセットのテクスチャ認識結果。 0.75
Interestingly, reflect padding outperforms zero padding for the texture 興味深いことに、反射パディングはテクスチャに対するゼロパディングに優れる 0.58
TABLE 10 recognition task. 表10 認識タスク。 0.64
12 Padding No Pad Zero Pad Reflect 12 パディング No Pad Zero Pad Reflect 0.78
GTOS-M DTD GTOS-M DTD 0.72
Res34 Res50 VGG5 Res34 Res50 VGG5 71.7 27.3 32.8 78.7 80.6 34.0 Res34 Res50 VGG5 Res34 Res50 VGG5 71.7 27.3 32.8 78.7 80.6 34.0 0.49
76.3 81.7 85.0 76.3 81.7 85.0 0.47
57.5 68.6 70.4 57.5 68.6 70.4 0.47
33.6 39.7 43.1 33.6 39.7 43.1 0.47
67.0 70.6 71.7 67.0 70.6 71.7 0.47
Fig. 13. フィギュア。 13. 0.64
Comparison of filter activations (visualized using ‘gray’ colormap) for the location dependant segmentation task trained without padding, 5 × 5 grid size, L = 13, and three canvas colors, black, white, and mean. 5×5の格子サイズ、L=13、黒、白、平均の3つのキャンバス色でトレーニングされた位置依存セグメンテーションタスクに対するフィルタのアクティベーション(「グレー」カラーマップで視覚化)の比較を行った。 0.77
Notice the large activations in the background region for black, contrasting that of white and mean. 背景領域の大きなアクティベーションは黒で、白と平均のアクティベーションとは対照的である。 0.72
different canvases, and showed that explicit zeros (in the form of a black canvas), allows for easier learning of semantic and location information in CNNs (H-II). 異なるキャンバスは、明示的なゼロ(黒いキャンバスの形で)がCNN(H-II)における意味と位置情報の学習を容易にすることを示した。 0.63
Comparison of mIoU with DeepLabv3 using various padding types for different image regions. 異なる画像領域の様々なパディングタイプを使用したmIoUとDeepLabv3の比較。 0.81
Top-left image in Fig. 14 shows outer regions used for this analysis. 図の左上の画像。 14は、この分析に使用される外部領域を示す。 0.71
The performance drop at the border region is more pronounced for no or reflect padding case than zero padding. 境界領域における性能低下は、ゼロパディングよりもノーまたはリフレクションパディングケースに対してより顕著である。 0.71
TABLE 9 Padding Zero Pad Reflect Pad No Pad 表9 パディング Zero Pad Reflect Pad No Pad 0.73
Evaluation Region mIoU(%) 評価領域mIoU(%) 0.79
0% - 5% 5% - 10% 10% - 15% 100% 74.0 73.9 69.1 0% - 5% 5% - 10% 10% - 15% 100% 74.0 73.9 69.1 0.92
72.6 71.9 63.7 72.6 71.9 63.7 0.47
73.8 73.7 67.3 73.8 73.7 67.3 0.47
72.7 72.0 66.4 72.7 72.0 66.4 0.47
7 APPLICABILITY TO SEMANTIC SEGMENTATION, TEXTURE RECOGNITION, DATA AUGMENTATION, AND ADVERSARIAL ROBUSTNESS Given the intriguing findings above, it is natural to ask how much the demonstrated phenomenon affects real world tasks with SOTA architectures. 7 意味セグメンテーション,テクスチャ認識,データ拡張,敵対的ロバスト性について,上記の興味深い結果から,somaアーキテクチャを用いた実世界のタスクにどの程度影響するかを問うのは自然である。 0.68
More specifically, does encoding position always improve performance or does it cause unwanted effects on certain tasks (H-V)? 具体的には、エンコーディングポジションが常にパフォーマンスを向上させるか、特定のタスク(H-V)に不要な影響を引き起こすか? 0.66
7.1 Semantic Segmentation We now measure the impact of zero padding to segment objects near the image boundary with a strong semantic segmentation network on an automotive-centric dataset. 7.1 セマンティックセグメンテーション 自動車中心のデータセットに対する強いセマンティックセグメンテーションネットワークにより、画像境界付近のセグメンテーションオブジェクトに対するゼロパディングの影響を測定します。 0.80
We use the DeepLabv3 [16] network and the Cityscapes [68] dataset, trained with different padding types. DeepLabv3 [16]ネットワークとCityscapes [68]データセットを使って、さまざまなパディングタイプでトレーニングしています。 0.80
From Table 9, it is clear that DeepLabv3 with zero padding achieves superior results compared to the model trained without padding or with reflect padding. 表9から、パディングゼロのDeepLabv3がパディングなしまたは反射パディングで訓練されたモデルと比較して優れた結果を達成することは明らかです。 0.64
Additionally, we perform an analysis by computing the mIoU for rectangular ring-like regions (see Fig. さらに、長方形の環状領域に対するmIoUを計算して解析を行う(図参照)。 0.81
14 (top-left)), between X% and Y %, where X and 14(左上))、X%とY%の間、XとY%。 0.81
Y are relative distances from the border (e.g., 0% − 5% is the outer most region of the image, while 5% − 10% is the neighbouring inner 5% region) to quantify the performance decrease from the boundary effect and lack of positional information. Y は境界から相対的な距離(例えば、0% − 5% は画像の最も外側の領域であり、5% − 10% は隣の内側の5% の領域である)であり、境界効果と位置情報の欠如からの性能低下を定量化する。 0.89
From Table 9, the performance drop between the total mIoU (100%) and the border region (0-5%) is more significant for the no padding case and reflect padding case compared to the zero padding case, which agrees with the results found in Sec. 表9から, 表9からmIoU(100%)と境界領域(0-5%)のパフォーマンス低下は, Secで得られた結果と一致するゼロパディングケースと比較して, ノーパディングケースおよびリフレクションパディングケースにおいてより重要である。 0.71
6. This further demonstrates that the absolute position information due to zero padding improves the performance at all image regions, while reflect padding is not as beneficial at the image boundaries. 6. さらに, 反射パディングが画像境界において有益でないのに対して, ゼロパディングによる絶対位置情報がすべての画像領域のパフォーマンスを向上させることを示す。 0.83
Figure 14 shows examples of how DeepLabv3 trained with zero padding generates more accurate predictions, particularly near the border of the image. 図14は、特に画像の境界付近で、ゼロパディングでトレーニングされたdeeplabv3がより正確な予測を生成する例を示しています。 0.65
Note that thin or complex objects near the border regions are particularly affected (e.g., light posts). 境界付近の細い物体や複雑な物体は特に影響を受けている(光のポストなど)。 0.70
The reason that performance suffers even with padding, is the lack of semantic and contextual information near the border, which is not the case for grid-based tasks (Sec. パディングがパフォーマンスに支障をきたす理由は、境界付近に意味的および文脈的な情報がないためであり、グリッドベースのタスク(sec)ではそうではない。 0.63
4) since the image patch contains the entire CIFAR-10 image. 4) 画像パッチはCIFAR-10画像全体を含むため。 0.86
Additional results can be found in Sec. さらなる結果はSecで確認できる。 0.53
A.5 in the Appendix. A.5 in the Appendix 0.91
7.2 Texture Recognition We evaluate three models with three padding types on the task of texture recognition. 7.2 テクスチャ認識 テクスチャ認識のタスクにおける3つのパディングタイプを持つ3つのモデルを評価する。 0.70
We use a ResNet-34, ResNet50, and VGG-5 trained with zero, reflect, and no padding settings, with the GTOS-Mobile dataset [69] and Describable Textures Dataset (DTD) [70]. GTOS-Mobileデータセット [69] と Describable Textures Dataset (DTD) [70] では、ResNet-34、ResNet50、VGG-5 をゼロ、リフレクション、パディング設定なしでトレーニングしています。 0.74
We hypothesize that, since there is little to no spatial bias (e.g., orientation) in most texture recognition datasets, position information may not benefit the performance of the CNN. 我々は、ほとんどのテクスチャ認識データセットに空間バイアス(例えばオリエンテーション)がほとんどないので、位置情報はCNNのパフォーマンスに役立たないかもしれないと仮定した。 0.73
As shown in Table 10, models trained with reflect padding outperform the models trained with zero padding. 表10に示すように、リフレクションパディングでトレーニングされたモデルは、ゼロパディングでトレーニングされたモデルよりも優れています。 0.56
This result implies that position information may not guide the network to learn robust representations for the task of texture recognition. この結果は,テクスチャ認識タスクにおけるロバスト表現の学習を,位置情報がネットワークに導くものではないことを示唆している。
訳抜け防止モード: この結果は 位置情報はテクスチャ認識タスクのためのロバスト表現を学習するためにネットワークを誘導するものではない。
0.71
Note that, although no padding has less position information than reflect padding, the CNN suffers from the border effects without padding (see Fig. 注意すべき点は、パディングが反射パディングよりも位置情報が少ないにもかかわらず、cnnはパディングなしで境界効果に苦しむことである(図参照)。 0.51
10), which hurts performance significantly (i.e., since the kernel’s support does not cover the entire image domain). これはパフォーマンスを著しく損なう(つまり、カーネルのサポートがイメージドメイン全体をカバーしていないため)。
訳抜け防止モード: 10)であった。 パフォーマンスが著しく低下する(つまり、カーネルのサポートがイメージドメイン全体をカバーしていないため)。
0.75
7.3 Canvas Analysis: Cutout & Adversarial Robustness We investigate the impact of different canvas colors in terms of performance and robustness using a data augmentation strategy, Cutout [38], which simply places a rectangular black mask over random image regions during training. 7.3 Canvas Analysis: Cutout & Adversarial Robustness データ強化戦略であるCutout [38]を使用して、トレーニング中にランダムな画像領域の上に長方形の黒いマスクを置くことで、パフォーマンスと堅牢性の観点から異なるキャンバス色の影響を調査します。 0.77
We evaluate DeepLabv3 with two backbones using the DeepLabv3を2つのバックボーンで評価する。 0.65
英語(論文から抽出)日本語訳スコア
13 Fig. 14. 13 フィギュア。 14. 0.71
Example predictions on the Cityscapes validation set when training with and without padding. パディングの有無にかかわらずトレーニングを行う場合のCityscapesバリデーションセットの予測例。 0.68
Best viewed zoomed in. ズームインされたベストビュー。 0.66
Performance and robustness of DeepLabv3 variants trained with Cutout [38] using two canvas (Black and White) settings. 2つのキャンバス(黒と白)設定を用いたカットアウト[38]でトレーニングしたdeeplabv3変種の性能とロバスト性。 0.70
Clearly, DeepLabv3 variants trained with white canvas based Cutout is more robust to the adversarial attacks than the black canvas based Cutout. 明らかに。 ホワイトキャンバスベースのカットアウトで訓練されたDeepLabv3バリアントは、ブラックキャンバスベースのカットアウトよりも敵対攻撃に対して堅牢です。 0.57
TABLE 11 Method DeepLabv3-Res50 DeepLabv3-Res101 表 11 方法 DeepLabv3-Res50 DeepLabv3-Res101 0.59
Segmentation Robustness B 73.9 75.5 セグメンテーションロバストネスB 73.9 75.5 0.54
W 74.1 75.2 W 74.1 75.2 0.59
B 53.7 49.8 B 53.7 49.8 0.59
W 55.8 51.9 W 55.8 51.9 0.59
Cutout strategy for semantic segmentation on the PASCAL VOC 2012 [71] dataset with black and white masks (see Fig. PASCAL VOC 2012[71]データセットにおける黒と白のマスクによる意味的セグメンテーションの削減戦略(図参照)。 0.80
20 in the appendix for example inputs). 例の入力の付録の20)。 0.59
We also evaluate the robustness of each model to show which canvas is more resilient to the GD-UAP adversarial attack [72]. また,各モデルのロバスト性を評価し,GD-UAP攻撃に対するキャンバスの弾力性を示す[72]。 0.67
Note that the GD-UAP attack is generated based on the image-agnostic DeepLab-ResNet101 backbone. GD-UAP攻撃は画像に依存しないDeepLab-ResNet101バックボーンに基づいて生成される。 0.59
As shown in Table 11, DeepLabv3 trained with white-mask Cutout is significantly more robust to adversarial examples than the black canvas, without sacrificing segmentation performance. 表11に示すように、ホワイトマスクカットアウトでトレーニングされたdeeplabv3は、セグメンテーション性能を犠牲にすることなく、ブラックキャンバスよりも敵対的な例よりもかなり堅牢である。 0.58
8 CONCLUSION In this paper, we first explored the hypothesis that absolute position information is implicitly encoded in convolutional neural networks. 8 結論 本論文では, 絶対位置情報は畳み込みニューラルネットワークで暗黙的に符号化されるという仮説を初めて検討した。
訳抜け防止モード: 8 結論 本稿ではまず,その仮説を考察した。 絶対位置情報は 畳み込みニューラルネットワークに暗黙的に符号化される
0.78
Experiments reveal that positional information is available to a strong degree. 実験の結果、位置情報はある程度有効であることが判明した。 0.59
Results point to zero padding and borders as an anchor from which spatial information is derived and eventually propagated over the whole image as spatial abstraction occurs. その結果、空間情報が導出され、最終的に空間抽象が発生すると、画像全体に伝播するアンカーとしてのパディングとバウンダリがゼロとなる。 0.70
Further, with the goal of answering whether boundary effects are a feature or a bug, we have presented evidence that the heuristics used at the image boundary play a much deeper role in a CNN’s ability to perform different tasks than one might assume. さらに,境界効果が機能なのかバグなのかという疑問に答えることを目的として,画像境界で使用されるヒューリスティックが,cnnが想定する異なるタスクを実行する能力において,はるかに深い役割を担っていることを示す。 0.75
By designing a series of location dependant experiments, we have performed a unique exploration into how this connection reveals itself. 位置依存実験をデザインすることで、この接続がどのように自分自身を明らかにするのかをユニークな調査を行いました。 0.55
We showed that zero padding encodes more position information relative to common padding types (H-I) and that zero padding causes more ゼロパディングは一般的なパディングタイプ(H-I)と比較してより多くの位置情報をエンコードし、ゼロパディングはより多くのパディングを引き起こすことを示した。
訳抜け防止モード: 我々は、ゼロパディングが一般的なパディングタイプ(H - I)と比較してより多くの位置情報をエンコードすることを示した。 ゼロパディングは
0.57
dimensions to encode position information and that this correlates with the number of dimensions that encode semantics (H-III). 位置情報をエンコードする次元と意味論をエンコードする次元の数(h-iii)と相関する。 0.69
We examined the ability of CNNs to perform semantic tasks as a function of the distance to a border. CNNが境界までの距離の関数として意味的タスクを実行する能力を検討した。 0.76
This revealed the capability of a black canvas to provide rich position information compared to other colors (i.e., White and Mean) (H-II). これは黒キャンバスが他の色(白と平均)と比較して豊かな位置情報を提供する能力を示した(h-ii)。 0.72
We visualized a number of features in CNNs which showed that boundary effects have an impact on all regions of the input (H-IV), and highlighted characteristics of border handling techniques which allow for absolute position information to be encoded. CNNのいくつかの特徴を視覚化し、境界効果が入力のすべての領域(H-IV)に影響を与えることを示し、絶対位置情報をエンコードできる境界処理技術の特徴を強調しました。 0.80
This position encoding enables CNNs to learn more separable semantic features which provide more accurate and confident predictions (H-III). この位置符号化により、CNNはより正確で自信のある予測(H-III)を提供する分離可能なセマンティック機能を学ぶことができる。 0.56
We conducted these experiments with the following question in mind: Are boundary effects a feature or a bug (H-V)? 境界効果は機能かバグか(H-V)か?
訳抜け防止モード: これらの実験は以下の疑問を念頭において実施した:境界効果は特徴か? あるいはバグ(H - V )?
0.75
After teasing out the above underlying properties, we were able to validate the hypothesis that different types of padding, levels of position information, and canvas colors, could be beneficial depending on the task at hand! 上記の特性をティースアウトした後、様々なタイプのパディング、位置情報レベル、キャンバスの色が、手作業によって有益であるという仮説を検証できたのです! 0.64
To be more clear: the position information can be used to improve performance, but can also be detrimental to a CNNs performance if not taken into consideration. より明確に言うと、位置情報はパフォーマンスを改善するために使用できるが、考慮されていない場合はcnnsのパフォーマンスに有害である。 0.63
These results demonstrate a fundamental property of CNNs that was unknown to date, and for which much further exploration is warranted. これらの結果は、これまで知られていなかったCNNの基本的特性を示し、さらなる探索が保証されている。 0.58
REFERENCES [1] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classifica- RefERENCES [1] A. Krizhevsky, I. Sutskever, G. E. Hinton, "ImageNet classifica-" 0.89
tion with deep convolutional neural networks,” in NIPS, 2012. 2012年NIPSにて「深層畳み込みニューラルネットワーク」を発表。 0.67
[2] K. Simonyan and A. Zisserman, “Very deep convolutional networks [2] K. Simonyan と A. Zisserman, "Very Deep Convolutional Network" 0.93
for large-scale image recognition,” in ICLR, 2015. 大規模画像認識用」を2015年ICLRにて発表。 0.74
[3] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in CVPR, 2015. 3] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich, “Going deep with convolutions” CVPR, 2015年。 0.91
[4] G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, 4] G. Huang、Z. Liu、L. Van Der Maaten、K. Q. Weinberger。 0.84
“Densely connected convolutional networks,” in CVPR, 2017. 2017年、cvprの“densely connected convolutional networks”。 0.70
[6] [5] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei, “Large-scale video classification with convolutional neural networks,” in CVPR, 2014. [6] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, L. Fei-Fei, “Large-scale video classification with convolutional neural network” in CVPR, 2014 0.87
J. Yue-Hei Ng, M. Hausknecht, S. Vijayanarasimhan, O. Vinyals, R. Monga, and G. Toderici, “Beyond short snippets: Deep networks for video classification,” in CVPR, 2015. J. Yue-Hei Ng, M. Hausknecht, S. Vijayanarasimhan, O. Vinyals, R. Monga, G. Toderici, “Beyond short snippets: Deep Network for video classification” in CVPR, 2015年。 0.97
J. Carreira and A. Zisserman, “Quo vadis, action recognition? J. CarreiraとA. Zisserman: “Quo vadis, action recognition? 0.94
A new model and the kinetics dataset,” in CVPR, 2017. a new model and the kinetics dataset” in cvpr, 2017” (英語) 0.78
[7] [7] 0.85
英語(論文から抽出)日本語訳スコア
[8] [9] S. Ren, K. He, R. Girshick, and J. [8] [9] S. Ren, K. He, R. Girshick, J。 0.86
Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks,” in NIPS, 2015. Sun, “Faster R-CNN: toward real-time object detection with region proposal network” in NIPS, 2015 0.91
J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” in CVPR, 2016. J. Redmon, S. Divvala, R. Girshick, A. Farhadi, “You only look once: Unified, real-time object detection” は2016年のCVPRで発表された。 0.82
[10] K. He, G. Gkioxari, P. Doll´ar, and R. Girshick, “Mask R-CNN,” in 10] K. He, G. Gkioxari, P. Doll ́ar, R. Girshick, “Mask R-CNN” 0.92
ICCV, 2017. 2017年、ICCV。 0.84
[11] A. Brock, J. Donahue, and K. Simonyan, “Large scale GAN training for high fidelity natural image synthesis,” arXiv:1809.11096, 2018. 11] A. Brock, J. Donahue, K. Simonyan, "高忠実な自然画像合成のための大規模なGANトレーニング" arXiv:1809.11096, 2018 0.88
[12] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks [12] J。 Long, E. Shelhamer, T. Darrell, “Fully Convolutional Network” 0.83
for semantic segmentation,” in CVPR, 2015. セマンティックセグメンテーションのために”, CVPR, 2015. 0.74
[13] H. Noh, S. Hong, and B. Han, “Learning deconvolution network 13] H. Noh, S. Hong, and B. Han, “Learning deconvolution network” 0.97
for semantic segmentation,” in ICCV, 2015. セマンティックセグメンテーションのために”, ICCV, 2015. 0.73
[14] M. A. Islam, S. Naha, M. Rochan, N. Bruce, and Y. Wang, “Label refinement network for coarse-to-fine semantic segmentation,” arXiv:1703.00551, 2017. M. A. Islam, S. Naha, M. Rochan, N. Bruce, Y. Wang, “Label refinement network for coarse-to-fine semantic segmentation” arXiv:1703.00551, 2017 0.90
[15] M. A. Islam, M. Rochan, N. D. Bruce, and Y. Wang, “Gated feedback [15]M.A.イスラム、M.ロチャン、N.D.ブルース、Y.ワン 0.59
refinement network for dense image labeling,” in CVPR, 2017. 2017年CVPRにて「高密度画像ラベリングのための精緻化ネットワーク」を発表。 0.62
[16] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam, “Rethinking atrous convolution for semantic image segmentation,” arXiv:1706.05587, 2017. 16] L.C. Chen, G. Papandreou, F. Schroff, H. Adam, “Rethinking atrous convolution for semantic image segmentation” arXiv:1706.05587, 2017 0.95
[17] M. A. Islam, M. Rochan, S. Naha, N. D. Bruce, and Y. Wang, “Gated feedback refinement network for coarse-to-fine dense semantic image labeling,” arXiv preprint arXiv:1806.11266, 2018. M. A. Islam, M. Rochan, S. Naha, N. D. Bruce, Y. Wang, “Gated feedback refinement network for coarse-to-fine dense semantic image labeling” arXiv preprint arXiv:1806.11266, 2018. 0.91
[18] R. Karim, M. A. Islam, and N. D. Bruce, “Recurrent iterative gating 18] r. karim, m. a. islam, n. d. bruce, "recurrent repeat gating" 0.74
networks for semantic segmentation,” in WACV, 2019. セマンティックセグメンテーションのためのネットワーク」、WACV、2019。 0.62
[19] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs,” TPAMI, 2018. [19]L.C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and full connected CRFs”. TPAMI, 2018。 0.92
[20] R. Karim, M. A. Islam, and N. D. Bruce, “Distributed iterative R. Karim, M. A. Islam, N. D. Bruce, “Distributed Iterative” 0.80
gating networks for semantic segmentation,” in WACV, 2020. セマンティックセグメンテーションのためのゲーティングネットワーク」、2020年WACVで。 0.67
[21] M. A. Islam, M. Kowal, K. G. Derpanis, and N. D. Bruce, “Feature binding with category-dependant mixup for semantic segmentation and adversarial robustness,” in BMVC, 2020. M. A. Islam, M. Kowal, K. G. Derpanis, N. D. Bruce, “Feature binding with category-deependant mixup for semantic segmentation and adversarial robustness” in BMVC, 2020. 0.89
[22] N. Liu and J. Han, “Dhsnet: Deep hierarchical saliency network for 22] N. Liu と J. Han, “Dhsnet: Deep Hierarchical Saiency Network for for 0.89
salient object detection,” in CVPR, 2016. CVPR、2016で「salientオブジェクト検出」。 0.63
[23] M. A. Islam, M. Kalash, M. Rochan, N. D. Bruce, and Y. Wang, “Salient object detection using a context-aware refinement network,” in BMVC, 2017. M. A. Islam, M. Kalash, M. Rochan, N. D. Bruce, Y. Wang, “Salient object detection using a context-aware refinement network” in BMVC, 2017 0.85
[24] M. A. Islam, M. Kalash, and N. D. Bruce, “Revisiting salient object detection: Simultaneous detection, ranking, and subitizing of multiple salient objects,” in CVPR, 2018. M. A. Islam, M. Kalash, N. D. Bruce, “Revisiting salient object detection: Simultaneous detection, ranking, and subitizing of multiple salient objects”. CVPR, 2018. CVPR. 2018. 2018 0.80
[25] N. Liu, J. Han, and M.-H. Yang, “Picanet: Learning pixel-wise N. Liu, J. Han, M.-H. Yang, “Picanet: Learning pixel-wise” 0.86
contextual attention for saliency detection,” in CVPR, 2018. サリエンシー検出のための文脈的注意」 CVPR, 2018で。 0.71
[26] M. A. Islam, M. Kalash, and N. D. Bruce, “Semantics meet saliency: Exploring domain affinity and models for dual-task prediction,” in BMVC, 2018. 26] m. a. islam, m. kalash, and n. d. bruce, “semantics meet saliency: exploration domain affinity and models for dual-task prediction” in 2018” (英語) 0.79
[27] M. Kalash, M. A. Islam, and N. D. Bruce, “Relative saliency and M. Kalash, M. A. Islam, N. D. Bruce, “Relative saliency and” 0.82
ranking: Models, metrics, data and benchmarks,” TPAMI, 2019. ランキング:モデル、メトリクス、データ、ベンチマーク」TPAMI、2019。 0.62
[28] S. Jia and N. D. Bruce, “Eml-net: An expandable multi-layer [28]S. JiaとN.D. Bruce, “Eml-net: 拡張可能な多層膜 0.71
network for saliency prediction,” arXiv:1805.01047, 2018. network for saliency prediction” arxiv:1805.01047, 2018。 0.71
[29] B. Wohlberg and P. Rodriguez, “Convolutional sparse coding: 29] b. wohlberg と p. rodriguez, “convolutional sparse coding:” (英語) 0.71
Boundary handling revisited,” arXiv:1707.06718, 2017. 境界ハンドリング再訪」 arXiv:1707.06718, 2017 0.75
[30] M. Tang, L. Zheng, B. Yu, and J. Wang, “High speed kernelized correlation filters without boundary effect,” arXiv:1806.06406, 2018. M. Tang, L. Zheng, B. Yu, J. Wang, “High speed kernelized correlation filters without boundary effect” arXiv:1806.06406, 2018. 0.89
[31] G. Liu, K. J. Shih, T.-C. Wang, F. A. Reda, K. Sapra, Z. Yu, A. Tao, and B. Catanzaro, “Partial convolution based padding,” arXiv:1811.11718, 2018. G. Liu, K. J. Shih, T.-C. Wang, F. A. Reda, K. Sapra, Z. Yu, A. Tao, B. Catanzaro, “Partial convolution based padding” arXiv:1811.11718, 2018. 0.90
[32] C. Innamorati, T. Ritschel, T. Weyrich, and N. J. Mitra, “Learning on the edge: Investigating boundary filters in CNNs,” IJCV, 2019. 32] C. Innamorati, T. Ritschel, T. Weyrich, N. J. Mitra, “Learning on the edge: Investigating boundary filter in CNNs”, IJCV, 2019。 0.86
[33] R. Liu, J. Lehman, P. Molino, F. P. Such, E. Frank, A. Sergeev, and J. Yosinski, “An intriguing failing of convolutional neural networks and the coordconv solution,” in NeurIPS, 2018. R. Liu, J. Lehman, P. Molino, F. P. Such, E. Frank, A. Sergeev, J. Yosinskiは、NeurIPS, 2018で、“畳み込みニューラルネットワークとコオードコンブのソリューションの失敗が興味深い”と述べている。 0.78
[34] J. P´erez, J. Marinkovi´c, and P. Barcel´o, “On the turing completeness [34] J. P ́erez, J. Marinkovi ́c, and P. Barcel ́o, “On the Turing completeness. 0.72
of modern neural network architectures,” in ICLR, 2019. 現代のニューラルネットワークアーキテクチャ」のICLR、2019。 0.56
[35] O. S. Kayhan and J. C. v. Gemert, “On translation invariance in cnns: Convolutional layers can exploit absolute spatial location,” in CVPR, 2020. 35] o. s. kayhan, j. c. v. gemert, “on translation invariance in cnns: convolutional layers can exploit absolute spatial location”。 0.70
[36] K. Gregor, I. Danihelka, A. Graves, D. J. Rezende, and D. Wierstra, “DRAW: A recurrent neural network for image generation,” in ICML, 2015. K. Gregor, I. Danihelka, A. Graves, D.J. Rezende, D. Wierstra, “DRAW: A recurrent neural network for image generation” は、2015年にICMLで発表されました。 0.84
[37] Z. Huang, W. Heng, and S. Zhou, “Learning to paint with model- [37]Z. Huang,W. Heng,S. Zhou, “Learning to Paint with model” 0.89
based deep reinforcement learning,” in ICCV, 2019. ICCV、2019で「ベースディープ強化学習」。 0.56
[38] T. DeVries and G. W. Taylor, “Improved regularization of convolutional neural networks with cutout,” arXiv preprint arXiv:1708.04552, 2017. ArXiv preprint arXiv:1708.04552, 2017] T. DeVries and G. W. Taylor, "Improved regularization of Convolutional neural networks with Cutout" arXiv preprint arXiv:1708.04552, 2017 0.72
14 [39] U. Demir and G. Unal, “Patch-based image inpainting with generative adversarial networks,” arXiv preprint arXiv:1803.07422, 2018. 14 39] U. Demir and G. Unal, “Patch-based image inpainting with generation adversarial network” arXiv preprint arXiv:1803.07422, 2018 0.90
[40] J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, and T. S. Huang, “Generative 40] J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, T.S. Huang, “Generative” 0.92
image inpainting with contextual attention,” in CVPR, 2018. Image inpainting with contextual attention”がCVPRに掲載されました。 0.76
[41] R. Geirhos, P. Rubisch, C. Michaelis, M. Bethge, F. A. Wichmann, and W. Brendel, “Imagenet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness,” in ICLR, 2018. R. Geirhos氏、P. Rubisch氏、C. Michaelis氏、M. Bethge氏、F. A. Wichmann氏、W. Brendel氏は、2018年のICLRで、"イメージネットでトレーニングされたCNNはテクスチャに偏っている。
訳抜け防止モード: 41] r. geirhos, p. rubisch, c. michaelis, m. bethge, f. a. wichmann, w. brendel, “imagenet - training cnnはテクスチャに偏っている。 形状バイアスの増加は正確性と堅牢性を向上させる。
0.73
[42] P. Esser, R. Rombach, and B. Ommer, “A disentangling invertible interpretation network for explaining latent representations,” in CVPR, 2020. [42] p. esser, r. rombach, b. ommer, “a disentangling invertible interpretation network for description latent representations” cvpr, 2020年。 0.73
[43] K. He, X. Zhang, S. Ren, and J. [43]K.He,X.Zhang,S. Ren,J。 0.75
Sun, “Deep residual learning for sun, “deep residual learning for” 0.86
image recognition,” in CVPR, 2016. 2016年CVPRにて「画像認識」。 0.66
[44] J. K. Tsotsos, S. M. Culhane, W. Y. K. Wai, Y. Lai, N. Davis, and F. Nuflo, “Modeling visual attention via selective tuning,” Artificial intelligence, 1995. [44] j. k. tsotsos, s. m. culhane, w. y. k. wai, y. lai, n. davis, f. nuflo, “modeling visual attention via selective tuning”, artificial intelligence, 1995。 0.82
[45] M. A. Islam, S. Jia, and N. D. Bruce, “How much position information do convolutional neural networks encode?” in ICLR, 2020. 45] m. a. islam, s. jia, and n. d. bruce, “どのくらいの位置情報は畳み込みニューラルネットワークをエンコードしているのか? 0.73
[46] M. D. Zeiler, G. W. Taylor, and R. Fergus, “Adaptive deconvolutional networks for mid and high level feature learning,” in ICCV, 2011. 46] M.D. Zeiler, G.W. Taylor, R. Fergus, “Adaptive deconvolutional network for mid and high level feature learning” は2011年のICCVで発表された。 0.85
[47] M. D. Zeiler and R. Fergus, “Visualizing and understanding [47]M.D. ZeilerとR. Fergus「可視化と理解」 0.86
convolutional networks,” in ECCV, 2014. 2014年ECCVにて「畳み込みネットワーク」を発表。 0.70
[48] C. Zhang, S. Bengio, M. Hardt, B. Recht, and O. Vinyals, “Understanding deep learning requires rethinking generalization,” arXiv:1611.03530, 2016. C. Zhang, S. Bengio, M. Hardt, B. Recht, O. Vinyals, “Understanding Deep Learning requires rethinking generalization”, arXiv:1611.03530, 2016 0.84
[49] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, “Learning deep features for discriminative localization,” in CVPR, 2016. B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, A. Torralba, “Learning Deep features for discriminative Localization” in CVPR, 2016 0.75
[50] R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra, “Grad-CAM: Visual explanations from deep networks via gradient-based localization,” in ICCV, 2017. R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, D. Batra, “Grad-CAM: Visual explanations from Deep Network via gradient-based localization”. ICCV, 2017年。 0.93
[51] E. L. Denton et al., “Unsupervised learning of disentangled E.L.デントンら[51] 「無拘束の教師なし学習」 0.65
representations from video,” in NIPS, 2017. 2017年NIPSで「ビデオからの表現」。 0.77
[52] D. Lorenz, L. Bereska, T. Milbich, and B. Ommer, “Unsupervised Part-based disentangling of object shape and appearance,” in CVPR, 2019. 52] D. Lorenz, L. Bereska, T. Milbich, B. Ommer, “Unsupervised Part-based disentangling of object shape and appearance” in CVPR, 2019。 0.87
[53] B. Alsallakh, N. Kokhlikyan, V. Miglani, J. Yuan, and O. ReblitzRichardson, “Mind the pad–CNNs can develop blind spots,” arXiv preprint arXiv:2010.02178, 2020. B. Alsallakh, N. Kokhlikyan, V. Miglani, J. Yuan, and O. ReblitzRichardson, “Mind the pad-CNNs can developing blind spots” arXiv preprint arXiv:2010.02178, 2020. 0.96
[54] R. Xu, X. Wang, K. Chen, B. Zhou, and C. C. Loy, “Positional inductive bias in GANs,” arXiv preprint 54] R. Xu, X. Wang, K. Chen, B. Zhou, C. C. Loy, "Positional Inductive bias in GANs" arXiv preprint 0.90
[55] Z. Wang and O. Veksler, “Location augmentation for CNN,” 55] Z. Wang, O. Veksler, “Location augmentation for CNN” 0.78
encoding as spatial arXiv:2012.05217, 2020. 空間arxiv:2012.05217, 2020のエンコーディング。 0.57
arXiv:1807.07044, 2018. arXiv:1807.07044, 2018 0.69
[56] R. Murase, M. Suganuma, and T. Okatani, “How can CNNs use [56]R. Murase, M. Suganuma, T. Okatani, “CNNの使い方 0.80
image position for segmentation?” arXiv:2005.03463, 2020. Image position for segmentation?” arXiv:2005.03463, 2020 0.90
[57] S. Sabour, N. Frosst, and G. E. Hinton, “Dynamic routing between 57] S. Sabour, N. Frosst, G.E. Hinton, “ダイナミックなルーティング。 0.82
capsules,” in NIPS, 2017. 2017年NIPSにて「カプセル」を発表。 0.68
[58] F. Visin, K. Kastner, K. Cho, M. Matteucci, A. Courville, and Y. Bengio, “A recurrent neural network based alternative to convolutional networks,” arXiv:1505.00393, 2015. F. Visin, K. Kastner, K. Cho, M. Matteucci, A. Courville, Y. Bengio, “A recurrent neural network based alternative to convolutional network” arXiv:1505.00393, 2015 0.88
[59] L. Sirovich, S. E. Brodie, and B. Knight, “Effect of boundaries on 59] L. Sirovich, S. E. Brodie, and B. Knight, “Effect of boundary on” 0.95
the response of a neural network,” Biophysical, 1979. ニューラルネットワークの反応だ”、biophysical, 1979。 0.63
[60] Y. Le and X. Yang, “Tiny ImageNet visual recognition challenge,” [60]Y。 Le and X. Yang, “Tiny ImageNet Visual Recognition Challenge”。 0.79
CS 231N, 2015. CS 231N 2015年。 0.91
[61] L. Wang, H. Lu, Y. Wang, M. Feng, D. Wang, B. Yin, and X. Ruan, “Learning to detect salient objects with image-level supervision,” in CVPR, 2017. L. Wang, H. Lu, Y. Wang, M. Feng, D. Wang, B. Yin, X. Ruan, “Learning to detect salient objects with image-level supervision” in CVPR, 2017 0.87
[62] Y. Li, X. Hou, C. Koch, J. M. Rehg, and A. L. Yuille, “The secrets of 62] Y. Li, X. Hou, C. Koch, J.M. Rehg, A.L. Yuille, “The secrets of” 0.91
salient object segmentation,” in CVPR, 2014. salient object segmentation" (CVPR, 2014) 0.64
[63] A. Krizhevsky, V. Nair, and G. Hinton, “The CIFAR-10 dataset,” 63] A. Krizhevsky、V. Nair、G. Hinton、「CIFAR-10データセット」。 0.81
online: http://www. オンライン:http://www。 0.65
cs. toronto. edu/kriz/cifar. csだ トロント edu/kriz/cifar 0.55
html, 2014. html、2014年。 0.60
[64] W. Brendel and M. Bethge, “Approximating CNNs with bag-oflocal-features models works surprisingly well on ImageNet,” in ICLR, 2019. 64] W. BrendelとM. Bethgeは、2019年のICLRで「ImageNetで驚くほどうまく機能するローカル機能モデルでCNNを近似する」と述べています。
訳抜け防止モード: [64 ] W. Brendel と M. Bethge, “ バッグ-ローカル-機能モデルによるCNNの近似 ICLR, 2019で“ImageNet, ”で驚くほどうまく動作する。
0.71
[65] D. Bau, B. Zhou, A. Khosla, A. Oliva, and A. Torralba, “Network dissection: Quantifying interpretability of deep visual representations,” in CVPR, 2017. D. Bau, B. Zhou, A. Khosla, A. Oliva, A. Torralba, “Network Dissection: Quantifying interpretability of deep visual representations” in CVPR, 2017
訳抜け防止モード: [65 ]D. Bau, B. Zhou, A. Khosla, A. Oliva, A. Torralba, “Network Dissection:” 深い視覚表現の解釈可能性の定量化」 CVPR、2017年。
0.87
[66] M. A. Islam, M. Kowal, P. Esser, S. Jia, B. Ommer, K. G. Derpanis, and N. Bruce, “Shape or texture: Understanding discriminative features in CNNs,” in ICLR, 2021. M. A. Islam, M. Kowal, P. Esser, S. Jia, B. Ommer, K. G. Derpanis, N. Bruce, “Shape or texture: Understanding discriminative features in CNNs”. ICLR, 2021年。 0.88
[67] L. v. d. Maaten and G. Hinton, “Visualizing data using t-SNE,” 67] L. v. Maaten, G. Hinton, “t-SNEによるデータの可視化” 0.81
JMLR, 2008. 2008年、JMLR。 0.70
英語(論文から抽出)日本語訳スコア
[68] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, “The Cityscapes dataset for semantic urban scene understanding,” in CVPR, 2016. 68] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, B. Schiele, “The Cityscapes dataset for semantic Urban scene understanding” CVPR, 2016年。 0.92
[69] J. Xue, H. Zhang, and K. Dana, “Deep texture manifold for ground 69] J. Xue, H. Zhang, K. Dana, "Deep texture manifold for Ground" 0.87
terrain recognition,” in CVPR, 2018. 2018年CVPRで「地形認識」。 0.67
[70] M. Cimpoi, S. Maji, I. Kokkinos, S. Mohamed, and A. Vedaldi, 70] M. Cimpoi、S. Maji、I. Kokkinos、S. Mohamed、A. Vedaldi。 0.86
“Describing textures in the wild,” in CVPR, 2014. 2014年にCVPRで「野生のテクスチャを記述」した。 0.73
[71] M. Everingham, L. Van Gool, C. K. [71]M.Everingham,L.Van Gool,C.K. 0.91
J. Winn, and A. Zisserman, “The PASCAL Visual Object Classes Challenge (VOC2010) Results,” http://www.pascalnet work.org/challenges/ VOC/voc2010/workshop /index.html, 2010. J. Winn, and A. Zisserman, “The PASCAL Visual Object Classes Challenge (VOC2010) Results” http://www.pascalnet work.org/challenges/ VOC/voc2010/workshop /index.html, 2010 0.67
I. Williams, [72] K. R. Mopuri, A. Ganeshan, and R. V. Babu, “Generalizable datafree objective for crafting universal adversarial perturbations,” TPAMI, 2018. i. ウィリアムズ K.R. Mopuri, A. Ganeshan, R. V. Babu, “Generalizable datafree objective for crafting universal adversarial perturbation”, TPAMI, 2018。 0.73
2010 [73] P. Zhang, D. Wang, H. Lu, H. Wang, and X. Ruan, “Amulet: Aggregating multi-level convolutional features for salient object detection,” in ICCV, 2017. 2010 73] P. Zhang, D. Wang, H. Lu, H. Wang, X. Ruan, “Amulet: Aggregating multi-level convolutional features for salient object Detection” in ICCV, 2017年。 0.87
[74] X. Glorot and Y. Bengio, “Understanding the difficulty of training [74]X. GlorotとY. Bengio, “訓練の難しさにもかかわらず” 0.73
deep feedforward neural networks,” in AISTATS, 2010. deep feedforward neural networks” in aistats, 2010” (英語) 0.84
15 Konstantinos G. Derpanis received the Honours Bachelor of Science (BSc) degree in computer science from the University of Toronto, Canada, in 2000, and the MSc (supervisors John Tsotsos and Richard Wildes) and PhD (supervisor Richard Wildes) degrees in computer science from York University, Canada, in 2003 and 2010, respectively. 15 コンスタンティノス・g・デルパニス(konstantinos g. derpanis)は、2000年にカナダのトロント大学でコンピュータ科学の名誉学士号(bsc)、2003年と2010年にカナダのヨーク大学からコンピュータ科学の博士号(john tsotsosとrichard wildes)とphd(supervisor richard wildes)を授与された。 0.80
For his dissertation work, he received the Canadian Image Processing and Pattern Recognition Society (CIPPRS) Doctoral Dissertation Award 2010 Honourable Mention. 論文により、Canadian Image Processing and Pattern Recognition Society (CIPPRS) Doctoral Dissertation Award 2010 Honourable Mentionを受賞した。 0.72
Subsequently, he was a postdoctoral researcher in the GRASP Laboratory at the University of Pennsylvania under the supervision of Kostas Daniilidis. その後、彼はコスタス・ダニリディス (kostas daniilidis) の指導の下、ペンシルベニア大学のグラブ研究所の博士研究員となった。 0.64
In 2012, he joined the Department of Computer Science at Ryerson University, Toronto, where he is an associate professor. 2012年、トロントのRyerson Universityのコンピュータ科学科に入学し、助教授となった。 0.55
He is a Faculty Affiliate at the Vector Institute for AI, Toronto. 彼はトロントのVector Institute for AIの学部所属です。 0.63
In 2019, Kosta joined the Samsung AI Centre in Toronto as a Research Scientist. 2019年、kostaは研究科学者としてトロントのsamsung ai centreに参加した。 0.71
He currently serves as an AE for TPAMI and is an AC for CVPR 2021 and ICCV 2021. 現在はTPAMIのAEを務め、CVPR 2021およびICCV 2021のACを務めています。 0.78
His main research field of interest is computer vision with emphasis on motion analysis and human motion understanding, and related aspects in image processing and machine learning. 彼の主な研究分野は、動き分析と人間の動き理解、および画像処理と機械学習における関連する側面に焦点を当てたコンピュータビジョンである。 0.83
Md Amirul Islam is currently a Ph.D. student at the Department of Computer Science at Ryerson University, Canada. Md Amirul Islamは現在、カナダのライソン大学のコンピュータ科学科のPh.D.学生である。 0.80
He is also a Postgraduate Affiliate at the Vector Institute for AI, Toronto. 彼はまた、トロントのVector Institute for AIの大学院アフィリエイトです。 0.73
He received his M.Sc. 彼はM.Scを取得した。 0.49
in Computer Science from University of Manitoba, Canada in 2017 and his B.Sc. 2017年、カナダのマニトバ大学と彼のB.Scでコンピュータサイエンスを専攻。 0.81
in Computer Science and Engineering from North South University, Bangladesh in 2014. 2014年、バングラデシュのノース・サウス大学からコンピュータ科学と工学を学ぶ。 0.78
He has worked as a research intern at Noah’s Ark Labs, Huawei Canada, Toronto in summer 2019 and 2020. 彼は2019年夏と2020年にトロントのHuawei CanadaのNoah’s Ark Labsで研究インターンとして働いています。 0.77
His research interests are in the area of computer vision, with a focus on exploring various mechanisms which allow for humans to understand the different properties of CNNs and semantic understanding of a scene. 彼の研究はコンピュータビジョンの分野で行われ、cnnの異なる特性とシーンの意味的理解を人間が理解できるようにする様々なメカニズムを探求することに焦点を当てている。 0.82
Matthew Kowal received a B.A.Sc. マシュー・コワルはB.A.Scを取得した。 0.35
in Applied Mathematics and Engineering from Queen’s University, Canada in 2017, and a M.Sc. 2017年、カナダのクイーンズ大学から応用数学と工学を専攻し、M.Sc.を取得。 0.87
in Computer Science from Ryerson University, Canada in 2020. 2020年、カナダのライアーソン大学でコンピュータサイエンスを学ぶ。 0.71
He is currently pursuing his Ph.D. in Computer Science from Ryerson University, Canada. 現在はカナダのライアソン大学からコンピュータ科学の博士号を取得している。 0.67
In 2020, he joined NextAI as a Scientist in Residence. 2020年、ネクストAIにレジデンスの科学者として入社。 0.69
His research interests include computer vision and more specifically designing interpretable deep learning algorithms for various visual tasks. 彼の研究にはコンピュータビジョンや、様々な視覚タスクのための解釈可能なディープラーニングアルゴリズムの設計が含まれる。 0.67
Neil D. B. Bruce Dr. Neil Bruce graduated from the University of Guelph with a B.Sc. ニール・d・b・ブルース博士はゲルフ大学をb.scで卒業した。 0.65
Double major in CS and Pure Mathematics. CSとピュア数学の2つの専攻。 0.76
Dr. Bruce then attended the University of Waterloo for an M.A.Sc. ブルース博士はその後ウォータールー大学にm.a.scで通った。 0.58
in System Design Engineering and York University for a Ph.D. in Computer Science. システムデザイン工学とヨーク大学でコンピュータサイエンスの博士号を取得。 0.72
Prior to joining Guelph he worked in the Department of Computer Science at Ryerson University. Guelphに入社する前は、Ryerson Universityのコンピュータサイエンス部門で働いていました。 0.76
Prior to this Dr. Bruce worked at the University of Manitoba as Assistant then Associate Professor. この前、ブルース博士はマニトバ大学で副教授として働いた。 0.59
Dr. Bruce has postdoctoral experience working at INRIA (France) and Epson Canada. ブルース博士は、INRIA(フランス)とEpson Canadaで博士号を取得しました。 0.65
He is the recipient of the Falconer Rh Young Researcher Award and is a Faculty Affiliate at the Vector Institute for AI, Toronto. 彼はFalconer Rh Young Researcher Awardの受賞者であり、トロントのVector Institute for AIの学部アフィリエイトです。 0.67
His research has explored solutions to issues in computer vision, deep-learning, human perception, neuroscience and visual computing. 彼の研究はコンピュータビジョン、ディープラーニング、人間の知覚、神経科学、視覚コンピューティングにおける問題の解決策を探求してきた。
訳抜け防止モード: 彼の研究はコンピュータビジョン、深層学習における問題の解決策を探究してきた。 人間の知覚 神経科学 視覚コンピューティング
0.69
Sen Jia is a postdoctoral researcher in the Vision and Image Processing lab of University of Waterloo. Sen Jiaは、Waterloo大学のVision and Image Processing Labの博士研究員です。 0.71
He has a wide range of research areas, including saliency detection in computer vision and uncertainty in neural networks. コンピュータビジョンにおけるサリエンシー検出やニューラルネットワークにおける不確実性など、幅広い研究領域を持つ。 0.73
Prior to this, he worked as a postdoctoral researcher at Ryerson University(Canada) and Bristol University (UK) in 2018 and 2016 respectively. その前は、2018年と2016年にそれぞれリヤソン大学(カナダ)とブリストル大学(イギリス)で博士研究員として働いた。 0.70
He received his PhD degree from the University of Bristol in 2017 under the supervision of Prof. Nello Cristianini. 2017年、ネロ・クリスティアーニ教授の下でブリストル大学から博士号を取得した。 0.56
He received his Master of Science (Msc) degree with distinction from the University of Newcastle in 2010 and Bachelor of Engineering (BE) from Beijing University of Technology in 2008. 2010年にニューカッスル大学で理学修士号(Msc)、2008年に北京工科大学で工学の学士号(BE)を取得しました。 0.53
英語(論文から抽出)日本語訳スコア
APPENDIX A A.1 Experimental Details of Absolute Position Encoding Experiments Datasets: We use the DUT-S dataset [61] as our training set, which contains 10, 533 images for training. APPENDIX A A.1 Experimental details of Absolute Position Encoding Experiments Datasets: We use the DUT-S dataset [61] as our training set, includes 10, 533 images for training。 0.90
Following the common training protocol used in [25], [73], we train the model on the training set of DUT-S and evaluate the existence of position information on the natural images of the PASCAL-S [62] dataset. 25],[73]で使用される一般的なトレーニングプロトコルに従って、DUT-Sのトレーニングセット上でモデルをトレーニングし、PASCAL-S [62]データセットの自然な画像上の位置情報の存在を評価する。 0.86
The synthetic images (white, black and Gaussian noise) are also used as described in Sec. Secに記載されているように、合成画像(白、黒、ガウスノイズ)も使用される。 0.76
3.4 of the main manuscript. Note that we follow the common setting used in saliency detection just to make sure that there is no overlap between the training and test sets. 主な原稿の3.4。 トレーニングとテストセットの間に重複がないことを確認するためだけに、サリエンシー検出に使用される共通の設定に従うことに注意してください。 0.72
However, any images can be used in our experiments given that the position information is relatively content independent. しかし, 位置情報が相対的に独立しているため, 実験では任意の画像が利用可能である。 0.76
Evaluation Metrics: As position encoding measurement is a new direction, there is no universal metric. 評価メトリクス:位置符号化測定は新しい方向であるため、普遍的なメトリックはありません。 0.79
We use two different natural choices for metrics (Spearmen Correlation (SPC) and Mean Absoute Error (MAE)) to measure the position encoding performance. メトリクスには2つの異なる自然選択(Spearmen Correlation (SPC)とMean Absoute Error (MAE))を使用して、位置エンコーディングのパフォーマンスを測定します。 0.73
The SPC is defined as the Spearman’s correlation between the ground-truth and the predicted position map. SPCは、スピアマンの地上構造と予測位置マップとの相関として定義される。 0.73
For ease of interpretation, we keep the SPC score within range [-1 1]. 解釈を容易にするため、SPCスコアを[-1]の範囲に維持する。 0.70
MAE is the average pixelwise difference between the predicted position map and the ground-truth gradient position map. MAEは、予測された位置マップと接地勾配位置マップの平均ピクセル方向の差です。 0.77
Implementation Details We initialize the architecture with a network pretrained for the ImageNet classification task. 実装の詳細 ImageNet分類タスクにプリトレーニングされたネットワークでアーキテクチャを初期化します。 0.76
The new layers in the position encoding branch are initialized with xavier initialization [74]. 位置符号化ブランチの新しい層は xavier initialization [74] で初期化される。 0.83
We train the networks using stochastic gradient descent for 15 epochs with momentum of 0.9, and weight decay of 1e − 4. 運動量0.9の15エポックの確率勾配降下と1e − 4の重み崩壊を用いてネットワークを訓練する。 0.77
We resize each image to a fixed size of 224 × 224 during training and inference. トレーニングおよび推論中に各画像を224×224の固定サイズに再構成する。 0.71
Since the spatial extent of multi-level features are different, we align all the feature maps to a size of 28 × 28. マルチレベル特徴の空間的範囲は異なるので、すべての特徴マップを28×28のサイズに整列させる。 0.82
A.2 Implementation Deatils of VGG-5 Network for Position Information We use a simplified VGG network (VGG-5) for the position encoding experiments in Sec. A.2 位置情報のためのVGG-5ネットワークの実装障害 Secにおける位置符号化実験に簡易化されたVGGネットワーク(VGG-5)を使用する。 0.71
3.4 of the main manuscript and texture recognition experiments in Sec. Secの主要な原稿とテクスチャ認識実験の3.4。 0.79
7 of the main manuscript. The details of the VGG-5 architecture are shown in Table 12 (in this table we show the VGG-5 network trained on the tiny ImageNet dataset, the VGG-5 network trained on texture recognition has a different input size: 224×224). 本文第7巻。 VGG-5アーキテクチャの詳細を表12に示す(この表では、小さなImageNetデータセットでトレーニングされたVGG-5ネットワーク、テクスチャ認識でトレーニングされたVGG-5ネットワークは入力サイズが224×224)。 0.61
Note that the network is trained from scratch. ネットワークはスクラッチからトレーニングされていることに注意してください。 0.48
The tiny ImageNet dataset contains 200 classes and each class has 500 images for training and 50 for validation. 小さいImageNetデータセットには200のクラスがあり、各クラスは500のトレーニング用イメージと50の検証用イメージがある。 0.66
The size of the input image is 64 × 64, a random crop of 56 × 56 is used for training and a center crop is applied for validation. 入力画像のサイズは64×64で、トレーニングには56×56のランダムな作物を使用し、検証には中心作物を適用する。
訳抜け防止モード: 入力画像のサイズは64×64である。 56×56のランダム作物がトレーニングに使用される そして、検証のために中心作物が適用されます。
0.76
The total training epochs is set to 100 with an initial learning rate of 0.01. 総トレーニング期間を100に設定し、初期学習率0.01とする。 0.80
The learning rate was decayed at the 60th and 80th epochs by multiplying the learning rate by a factor of 0.1. 学習率は、学習率を0.1倍に増やすことで、第60回と第80回で減衰した。 0.70
A momentum of 0.9 and a weight decay of 1e − 4 are applied with the the stochastic gradient descent optimizer. 0.9 の運動量と 1e − 4 の重量減衰は、確率勾配降下最適化器で適用される。 0.76
After the pre-training process, a simple read-out module is applied on the pretrained frozen backbone for position evaluation, following the training protocol as used in [45]. 事前トレーニング処理後、[45]で使用されるトレーニングプロトコルに従って、予めトレーニングした冷凍バックボーンに簡単な読み出しモジュールを適用して位置評価を行う。 0.79
Note that the type of padding strategy is consistent between the pre-training and position evaluation procedures. パッドング戦略のタイプは、事前トレーニングと位置評価手順の間で一貫性があることに注意してください。 0.54
16 Configuration of VGG-5 architecture trained on tiny ImageNet. 16 小型イメージネットを用いたVGG-5アーキテクチャの構成 0.76
TABLE 12 RGB image x ∈ R56×56×3 Table 12 RGB画像 x ∈ R56×56×3 0.67
Conv2d (3 × 3), Batch Norm, ReLU, MaxPool2d → R28×28×32 Conv2d (3 × 3), Batch Norm, ReLU, MaxPool2d → R14×14×64 Conv2d (3 × 3), Batch Norm, ReLU, MaxPool2d → R7×7×128 Conv2d (3 × 3), Batch Norm, ReLU, MaxPool2d → R28×28×32 Conv2d (3 × 3), Batch Norm, ReLU, MaxPool2d → R14×14×64 Conv2d (3 × 3), Batch Norm, ReLU, MaxPool2d → R7×7×128 0.77
Conv2d (3 × 3), Batch Norm, ReLU → R7×7×256 Conv2d (3 × 3), Batch Norm, ReLU → R7×7×256 0.82
Global Average Pooling (GAP) → R1×1×256 グローバル平均プール(GAP)→R1×1×256 0.71
FC → (256, classes) FC → (256, class) 0.84
A.3 Extended Per-location Analysis We now present additional ‘per-location’ results. a.3 extended per-location analysis 追加の ‘per-location’ 結果を表示する。 0.63
That is, we take advantage of the location dependant grid-based input and analyze the performance of CNNs at each location on the grid. すなわち、グリッドベースの入力に依存する位置を利用して、グリッド上の各位置におけるCNNの性能を解析する。 0.70
This is done to reveal the impact of border effects with respect to the absolute location of the object of interest. これは、関心のあるオブジェクトの絶対位置に関する境界効果の影響を明らかにするために行われます。 0.81
We first show class-wise performance for the location dependant semantic segmentation task (Sec. まず,位置依存意味セグメンテーションタスク(sec)のクラス別パフォーマンスを示す。 0.64
A.3.1). Next, we show the performance as a function of the distance to the nearest border by averaging the accuracy over all locations which are a specified number of grid locations away from the nearest border (Sec. A.3.1)。 次に、最も近い境界(Sec.com)から離れたグリッド位置の指定された数であるすべての場所の精度を平均して、最も近い境界までの距離の関数として性能を示します。 0.63
A.3.2). Note that all experiments are done with the same settings as Sec. A.3.2)。 すべての実験はSecと同じ設定で行われます。 0.59
4 in the main paper, on the CIFAR-10 [63] dataset. CIFAR-10 [63]データセットに関する主な論文の4。 0.68
A.3.1 Per-Location Category-wise mIoU Analysis Table 13 shows the category-wise mIoU for the location dependant image segmentation task for a 7 × 7 grid with black and mean canvas settings. A.3.1 位置別カテゴリ別mIoU分析表13は、黒と平均キャンバス設定の7×7グリッドに対して、位置別画像分割タスクのカテゴリ別mIoUを示す。 0.73
We show the category-wise performance for a location at the very top right corner (L = 7) and at the center of the grid (L = 25), which highlights how the encoding of absolute position information affects the learning of semantic representations. 我々は、絶対位置情報のエンコーディングが意味的表現の学習にどのように影響するかを強調する、グリッド(L = 25)の中央の右上隅(L = 7)と位置のカテゴリワイズのパフォーマンスを示しています。 0.81
For both locations, the border and the center, zero padding gives a large increase in performance for all classes compared to lack of padding. 境界と中央の両方の場所で、ゼロパディングはパディングの欠如と比較して、すべてのクラスのパフォーマンスを大幅に向上させます。 0.60
This is particularly pronounced with a mean canvas, demonstrating how the black canvas explicitly injects position information, even without the use of zero padding. これは特に平均的なキャンバスで発音され、黒キャンバスがゼロパディングを使わずに位置情報を明示的に注入する方法を示している。 0.62
For example, comparing the black and mean canvas at L = 7 shows how important absolute position information can be in learning distinct semantic representations. 例えば、L = 7 における黒と平均キャンバスの比較は、異なる意味表現を学ぶ際に絶対的な位置情報がいかに重要であるかを示している。 0.64
The network trained with a mean canvas has a difficult time learning to segment images at this location when no padding is used and suffers a large drop in performance compared to the black canvas. 平均キャンバスでトレーニングされたネットワークは、この場所において、パッドを使用しない場合に画像を分割することが困難であり、黒キャンバスと比較して大きな性能低下を被る。 0.61
Some classes even score around 1% mIoU, which implies that the network fails to learn to segment certain classes (i.e., Bird, Cat, Deer, and Dog) with these settings. 一部のクラスは1%のmIoUをスコア付けしており、ネットワークが特定のクラス(鳥、猫、鹿、犬など)をこれらの設定でセグメント化することを学ぶことができないことを意味する。 0.71
When zero padding is added (i.e., Mean, w/ padding, L = 7), the network achieves a performance boost of between 35% − 60%. ゼロパディング(つまり、平均、w/パディング、L = 7)を追加すると、ネットワークは35% - 60%の性能向上を達成する。
訳抜け防止モード: ゼロパディングが追加された場合(つまり、平均 w/パディング、l = 7 ) このネットワークは、35 % − 60 %の性能向上を達成している。
0.71
When a black canvas is used to inject position information instead (i.e., Black, w/o padding, L = 7), the performance gains range from 15% − 40%. 代わりに黒いキャンバスを使用して位置情報(つまり、ブラック、w/oパディング、L = 7)を注入すると、パフォーマンスは15%から40%の範囲になります。 0.73
Clearly, the encoding of position information, by means of zero padding or a black canvas, has a stark effect on a CNN’s ability to learn distinctive semantic features. 明らかに、位置情報のエンコーディングは、ゼロパディングまたは黒いキャンバスによって、CNNの固有の意味的特徴を学習する能力に大きな影響を与えている。
訳抜け防止モード: 明らかに、位置情報の符号化は、ゼロパディングまたは黒いキャンバスによって行われる。 CNNのユニークなセマンティック機能を学ぶ能力には、大きな影響があります。
0.70
We see a ご覧の通り 0.59
英語(論文から抽出)日本語訳スコア
Location dependant image segmentation: Category-wise mIoU on CIFAR-10 [63] for two different locations under w/ and w/o padding settings and Black and Mean canvas color. 位置依存画像分割:カテゴリー別miou on cifar-10 [63] w/oとw/oパディング設定と黒と平均キャンバスカラーの2つの異なるロケーションについて。 0.66
The grid size for both canvases is 7 × 7. 両キャンバスのグリッドサイズは7×7である。 0.73
Clearly, the encoding of absolute position information, by means of zero 明らかに、絶対位置情報の符号化はゼロである。 0.73
padding or a black canvas, has a significant effect on a CNN’s ability to segment object by learning distinctive semantic features. パディングまたは黒いキャンバスは、CNNが固有のセマンティックな特徴を学習することによってオブジェクトを分割する能力に重大な影響を及ぼす。 0.67
TABLE 13 17 Categories 表13 17 カテゴリ 0.77
Background Plane Car Bird Cat Deer Dog Frog Horse Ship Truck Overall 背景 飛行機の鳥の猫鹿犬 カエルの船用トラック 0.71
Black Mean L = 7 黒 意味 L = 7 0.77
L = 25 L = 7 L = 25 L = 7 0.85
L = 25 w/ Pad w/o Pad w/ Pad w/o Pad w/ Pad w/o Pad w/ Pad w/o Pad L = 25 w/Pad w/o Pad w/o Pad w/o Pad w/o Pad w/o Pad w/o Pad 0.78
0.99 0.67 0.80 0.57 0.46 0.63 0.53 0.67 0.70 0.78 0.74 0.66 0.99 0.67 0.80 0.57 0.46 0.63 0.53 0.67 0.70 0.78 0.74 0.66 0.41
0.99 0.65 0.72 0.57 0.41 0.63 0.51 0.67 0.68 0.67 0.66 0.65 0.99 0.65 0.72 0.57 0.41 0.63 0.51 0.67 0.68 0.67 0.66 0.65 0.41
0.99 0.65 0.76 0.57 0.43 0.62 0.53 0.64 0.70 0.74 0.71 0.66 0.99 0.65 0.76 0.57 0.43 0.62 0.53 0.64 0.70 0.74 0.71 0.66 0.41
0.99 0.70 0.79 0.61 0.46 0.65 0.54 0.72 0.71 0.74 0.73 0.70 0.99 0.70 0.79 0.61 0.46 0.65 0.54 0.72 0.71 0.74 0.73 0.70 0.41
0.99 0.60 0.68 0.52 0.42 0.58 0.49 0.62 0.66 0.68 0.68 0.63 0.99 0.60 0.68 0.52 0.42 0.58 0.49 0.62 0.66 0.68 0.68 0.63 0.41
0.99 0.61 0.69 0.44 0.31 0.53 0.46 0.64 0.64 0.73 0.65 0.61 0.99 0.61 0.69 0.44 0.31 0.53 0.46 0.64 0.64 0.73 0.65 0.61 0.41
0.99 0.64 0.74 0.57 0.43 0.60 0.51 0.65 0.68 0.72 0.72 0.66 0.99 0.64 0.74 0.57 0.43 0.60 0.51 0.65 0.68 0.72 0.72 0.66 0.41
0.99 0.65 0.76 0.56 0.42 0.61 0.51 0.71 0.70 0.75 0.72 0.67 0.99 0.65 0.76 0.56 0.42 0.61 0.51 0.71 0.70 0.75 0.72 0.67 0.41
Black No Padding White No Padding Mean No Padding ブラック・ノー・パディング・ホワイト(black no padding white)は、パディングを含まないパディング。 0.39
7 × 7 Grid 7 × 7 グリッド。 0.83
9 × 9 Grid 9 × 9 グリッド。 0.84
Padding Baseline 9 × 9 Grid Padding Baseline 9 × 9 Grid 0.85
) % ( e c n e r e f f i ) % ( e c n e r e f f i 0.85
D y c a r u c c A D y c a r u c c A 0.85
0 −10 −20 0 0 −10 −20 0 0.82
−20 −40 −60 −20 −40 −60 0.78
0 −5 −10 0 0 −5 −10 0 0.82
1 2 3 4 Distance to Closest Border 1 2 3 4 最境界までの距離 0.82
0 1 2 3 4 Distance to Closest Border 0 1 2 3 4 最境界までの距離 0.83
0 1 2 3 Distance to Closest Border 0 1 2 3 最境界までの距離 0.82
Fig. 15. フィギュア。 15. 0.64
Location dependant image classification (left two) and segmentation (right). 位置は画像分類(左2)とセグメンテーション(右)に依存する。 0.79
Results show the accuracy difference between padding (blue horizontal line) and no padding (orange markers), at various distances to the border and canvas colors. その結果, 境界色とキャンバス色との異なる距離において, パディング (青水平線) とパディング (オレンジマーカー) の精度差が認められた。 0.78
similar, but not quite as drastic, pattern at the center of the image, further showing how the boundary effects impact all locations in an image, and not just at the image border. 画像の中央のパターンは似ているが、大胆なものではなく、画像の境界だけでなく、画像内のすべての場所に境界がどう影響するかを示すものだ。 0.67
A.3.2 Distance to Border Performance Figure 15 shows the performance as a function of the distance to the closest border for all three canvas colors. A.3.2 ボーダーパフォーマンスへの距離 図15は、3つのキャンバスカラーすべてに最も近い境界までの距離の関数としての性能を示す。 0.73
The networks with zero padding are represented as a blue horizontal line, where the plotted markers show the difference in performance when no padding is used. ゼロパディングのネットワークは青い水平線として表現され、描画されたマーカーはパディングを使用しない場合のパフォーマンスの違いを示す。 0.79
Consistent with the results in the main paper, locations near the border are on average, much more difficult for networks to classify and segment, particularly as the grid size increases. 主な論文の結果と一致して、境界付近の場所は平均的であり、特にグリッドサイズが大きくなるにつれて、ネットワークの分類と分割がはるかに困難である。 0.74
A.4 Location Dependant Image Segmentation Predictions Figure 16 shows predictions of the location dependant image segmentation task for a grid size k = 5. A.4 位置依存画像セグメンテーション予測図16は、グリッドサイズ k = 5 に対する位置依存画像セグメンテーションタスクの予測を示す。 0.78
We visualize the predictions as a heatmap, where each pixel is colored それぞれのピクセルが色づくヒートマップとして予測を視覚化する 0.78
according to the confidence that the semantic category appears in that pixel’s location. セマンティックなカテゴリーがそのピクセルの位置に現れるという自信に従っている。 0.67
We show predictions with padding (left) and without padding (right) for various grid locations, L. Note how boundary effects significantly impact locations near the border. 境界効果が境界付近にどのように影響するかに注目し、様々なグリッド位置のパディング(左)とパディング(右)なしの予測を示します。 0.68
In particular, locations in the corners are most affected, as they suffer from boundary effects originating from two borders (e.g., top and left border for L = 1). 特に、角の場所は、2つの境界(例えば、L = 1)の上部と左の境界)から生じる境界効果に苦しむため、最も影響を受けます。 0.73
Figure 16 shows predictions of the location dependant image segmentation task for a grid size k = 5. 図16は、グリッドサイズk = 5のイメージセグメンテーションタスクに依存する位置の予測を示す。 0.76
We visualize the predictions as a heatmap, where each pixel is colored according to the confidence that the semantic category appears in that pixel’s location. 予測をヒートマップとして視覚化し、各ピクセルがそのピクセルの位置に意味カテゴリーが現れるという自信に従って色付けされます。 0.75
We show predictions with padding (left) and without padding (right) for various grid locations, L. Note how boundary effects significantly impact locations near the border. 境界効果が境界付近にどのように影響するかに注目し、様々なグリッド位置のパディング(左)とパディング(右)なしの予測を示します。 0.68
In particular, locations in the corners are most affected, as they suffer from boundary effects originating from two borders (e.g., top and left border for L = 1). 特に、角の場所は、2つの境界(例えば、L = 1)の上部と左の境界)から生じる境界効果に苦しむため、最も影響を受けます。 0.73
英語(論文から抽出)日本語訳スコア
18 Fig. 16. 18 フィギュア。 16. 0.71
Sample predictions of image segmentation on all the locations of a 5 × 5 grid under the mean canvas setting. 平均キャンバス設定下での5×5グリッドのすべての位置における画像分割のサンプル予測。 0.74
Confidence maps are plotted with the ‘viridis’ colormap, where yellow and dark blue indicates higher and lower confidence, respectively. 信頼マップは「viridis」カラーマップでプロットされ、黄色とダークブルーはそれぞれ高い信頼度と低い信頼度を示します。 0.70
Fig. 17. フィギュア。 17. 0.64
Example predictions of DeepLabv3-ResNet50 on the Cityscapes validation set when training w/ and w/o padding settings. トレーニングw/とw/oパディング設定時のCityscapesバリデーションセット上のDeepLabv3-ResNet50の例。 0.68
英語(論文から抽出)日本語訳スコア
IoU comparison of DeepLabv3 for semantic segmentation task with セマンティックセグメンテーションタスクにおけるDeepLabv3のIoU比較 0.78
three different padding (Zero, Reflect, and No pad) settings. 3つの異なるパッド(Zero、リフレクション、ノーパッド)の設定。 0.71
TABLE 14 Eval. Region Zero Pad Reflect No Pad 表14 Eval Region Zero Pad Reflect No Pad 0.67
0%- 5% 5%- 10% 10%- 15% 15%- 20% 20%- 25% 25%- 30% 30%- 35% 35%- 40% 40%- 45% 45%- 50% 50%- 55% 55%- 60% 60%- 65% 65%- 70% 70%- 75% 75%- 80% 80%- 85% 85%- 90% 90%- 95% 95%- 100% 0%- 5% 5%- 10% 10%- 15% 15%- 20% 20%- 25% 25%- 30% 30%- 35% 35%- 40% 40%- 45% 45%- 50% 50%- 55% 55%- 60% 60%- 65% 65%- 70% 70%- 75% 75%- 80% 80%- 85% 85%- 90% 90%- 95% 95%- 100% 0.68
Overall 72.6 72.7 73.8 73.9 74.7 75.3 75.1 74.7 74.4 74.2 74.4 74.3 73.8 73.8 73.9 73.8 73.5 71.4 71.3 69.7 74.0 全体 72.6 72.7 73.8 73.9 74.7 75.3 75.1 74.7 74.4 74.2 74.4 74.3 73.8 73.8 73.9 73.8 73.5 71.4 71.3 69.7 74.0 0.56
71.9 72.0 73.7 74.1 74.8 75.4 75.2 75.2 74.8 74.5 74.9 74.8 74.3 74.4 74.5 74.4 74.1 71.9 72.0 70.1 73.9 71.9 72.0 73.7 74.1 74.8 75.4 75.2 75.2 74.8 74.5 74.9 74.8 74.3 74.4 74.5 74.4 74.1 71.9 72.0 70.1 73.9 0.40
63.7 66.4 67.2 67.9 68.5 69.6 69.4 69.3 69.2 69.4 69.8 69.7 69.2 68.8 68.9 69.2 68.1 65.1 64.2 70.2 69.1 63.7 66.4 67.2 67.9 68.5 69.6 69.4 69.3 69.2 69.4 69.8 69.7 69.2 68.8 68.9 69.2 68.1 65.1 64.2 70.2 69.1 0.40
A.5 Extended Boundary Effect Analysis on Cityscapes Dataset We continue to investigate the impact that zero padding has on the ability of a strong and deep CNN to segment objects near the image boundary. A.5 Extended Boundary Effects Analysis on Cityscapes Dataset 私たちは、ゼロパディングが画像境界付近のオブジェクトを分割する強力で深いCNNの能力に与える影響を引き続き調査しています。 0.86
Results shown use the same network and training settings as in Sec. 示されている結果は、secと同じネットワークとトレーニング設定を使用する。 0.65
7 of the main manuscript, on the Cityscapes [68] dataset. Cityscapes [68]データセットにあるメインの原稿の7.7。 0.72
We first show additional qualitative examples in Fig. まず、図に定性的な例を示します。 0.57
17, which clearly shows a large reduction in performance at locations near the border when no padding is used, particularly for thin objects (e.g., street lamps or column poles). これは、特に薄い物体(街灯や柱柱など)でパディングが使用されない場合、境界付近での性能が大幅に低下していることを明確に示している。 0.58
We present additional results (see Table 14 and Fig. 追加の結果を示す(表14および図示参照)。 0.81
19) of the analysis presented in Sec. 19)Secで提示された分析の。 0.74
6 (semantic segmentation) in the main paper. 6(セマンティックセグメンテーション)をメインペーパーに。 0.62
Fig. 18 shows sample evaluation regions used for this analysis. フィギュア。 18は,本分析に用いた試料評価領域を示す。 0.59
The no padding case has a steeper drop-off in performance as regions of evaluation get closer to the image boundary. noパディングケースは、評価領域が画像境界に近づくにつれて、パフォーマンスが大幅に低下する。 0.67
Note how, in all cases, the performance increases from the border to the inner 25%, at which point the performance is somewhat stagnant until it reaches the innermost 80%. すべてのケースにおいて、パフォーマンスがバウンダリから内部25%に増加し、その時点でパフォーマンスが最内側80%に達するまで多少停滞している点に注意してください。 0.73
Surprisingly, we also observe a steeper drop off in the middle of the image for the no padding case, supporting our hypothesis that boundary effects play a role at all regions of the image without the use of padding. 驚くべきことに、我々はまた、noパディングケースのイメージの中央でより急なドロップオフを観察し、パディングを使わずに画像のすべての領域で境界効果が役割を果たすという仮説を支持した。 0.66
We believe the drop in performance at the center regions is due to Cityscapes being an automotive-centric dataset, where pixels at the center of the image are often at large distances away from the camera, unless the vehicle collecting the data has an object directly in front of it. 中心地域におけるパフォーマンスの低下は、Cityscapesが自動車中心のデータセットであり、画像の中心のピクセルがカメラから遠ざかることが多いため、データを収集する車両がその前にオブジェクトを持っている場合を除きます。
訳抜け防止モード: 中心領域におけるパフォーマンスの低下は、Cityscapesが自動車中心のデータセットであることによるものだと考えています。 画像の中心にあるピクセルは しばしばカメラから遠く離れています データを収集する車両が 直接その前に 物体を持っていない限り
0.82
19 Fig. 18. 19 フィギュア。 18. 0.71
An illustration of the evaluation regions used for the analysis in Table 14 and Fig. 表14と図14における分析に用いる評価領域の図解 0.70
19. 75 70 65 19. 75 70 65 0.85
) ( % U o I m ) ( % U o I m 0.85
w/o padding Reflect padding Zero padding w/oパディング 反射パディング ゼロパディング 0.56
10 20 30 40 10 20 30 40 0.85
50 60 70 80 50 60 70 80 0.85
90 100 Region Distribution 90 100 地域分布 0.82
Fig. 19. フィギュア。 19. 0.64
Performance comparison of DeepLabv3 network with respect to various image regions and padding settings used in Table 14. 表14で使用されているさまざまな画像領域とパディング設定に関するDeepLabv3ネットワークのパフォーマンスの比較。 0.80
Fig. 20. フィギュア。 20. 0.64
Sample training images generated using Cutout [38] under two different canvases. カットアウト[38]を2つの異なるキャンバス下で生成したサンプルトレーニング画像。 0.66
A.6 Canvas Analysis: Cutout & Adversarial Robustness Figure 20 shows two training examples of Cutout strategy. A.6 Canvas Analysis: Cutout & Adversarial Robustness 図20は、カットアウト戦略の2つのトレーニング例を示している。 0.69
Following Cutout, we simply place a rectangular mask (black and white) over a random region during the training. Cutoutに続いて、トレーニング中にランダムな領域に長方形のマスク(黒と白)を配置する。 0.73
Note that we evaluate on the standard PASCAL VOC 2012 validation images. 標準のPASCAL VOC 2012検証画像で評価します。 0.57
                                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。