論文の概要、ライセンス

# (参考訳) きめ細かい視覚分類のための特徴増強, 抑圧, 多様化 [全文訳有]

Feature Boosting, Suppression, and Diversification for Fine-Grained Visual Classification ( http://arxiv.org/abs/2103.02782v1 )

ライセンス: CC BY 4.0
Jianwei Song, Ruoyu Yang(参考訳) 識別的局所領域からの特徴表現の学習は、きめ細かい視覚的分類において重要な役割を担っている。 部分的特徴抽出のための注意機構の活用がトレンドとなっている。 しかし、これらの方法には2つの大きな制限がある: まず、他の目立たないが区別可能な部分を無視しながら、最も健全な部分に焦点を当てることがしばしばである。 第2に、関係を無視しながら、異なる部分の特徴を分離して扱う。 これらの制約に対処するために,複数の異なる識別可能な部分を見つけ,それらの関係を明示的な方法で探究することを提案する。 本稿では,既存の畳み込みニューラルネットワークに簡単に接続可能な2つの軽量モジュールを提案する。 本稿では,特徴マップの最も顕著な部分を強化し,部分固有の表現を取得し,次のネットワークに他の潜在的な部品をマイニングさせるよう抑制する機能強化・抑制モジュールを提案する。 一方,相関した部分固有表現から意味的に補完的な情報を学習する特徴多様化モジュールを提案する。 私たちのメソッドはバウンディングボックス/パーツアノテーションを必要とせず、エンドツーエンドでトレーニングできます。 広範な実験結果から,本手法は複数のベンチマークきめ細かなデータセットにおいて最先端の性能を得ることができた。

Learning feature representation from discriminative local regions plays a key role in fine-grained visual classification. Employing attention mechanisms to extract part features has become a trend. However, there are two major limitations in these methods: First, they often focus on the most salient part while neglecting other inconspicuous but distinguishable parts. Second, they treat different part features in isolation while neglecting their relationships. To handle these limitations, we propose to locate multiple different distinguishable parts and explore their relationships in an explicit way. In this pursuit, we introduce two lightweight modules that can be easily plugged into existing convolutional neural networks. On one hand, we introduce a feature boosting and suppression module that boosts the most salient part of feature maps to obtain a part-specific representation and suppresses it to force the following network to mine other potential parts. On the other hand, we introduce a feature diversification module that learns semantically complementary information from the correlated part-specific representations. Our method does not need bounding boxes/part annotations and can be trained end-to-end. Extensive experimental results show that our method achieves state-of-the-art performances on several benchmark fine-grained datasets.
公開日: Thu, 4 Mar 2021 01:49:53 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Feature Boosting, Suppression, and Diversification 機能ブースト、抑圧、多様化。 0.66
for Fine-Grained Visual Classification Jianwei Song, Ruoyu Yang 細粒度視覚分類法 Jianwei Song, Ruoyu Yang 0.71
National Key Laboratory for Novel Software Technology Nanjing University, Nanjing 210023, China songjianwei@smail.nj u.edu.cn, yangry@nju.edu.cn New Software Technology Nanjing University, Nanjing 210023, China songjianwei@smail.nj u.edu.cn, yangry@nju.edu.cn 0.85
1 2 0 2 r a M 4 ] V C . 1 2 0 2 r a m 4 ] v c である。 0.79
s c [ 1 v 2 8 7 2 0 . s c [ 1 v 2 8 7 2 0 . 0.85
3 0 1 2 : v i X r a 3 0 1 2 : v i X r a 0.85
Abstract—Learning feature representation from discriminative local regions plays a key role in fine-grained visual classification. abstract — learning feature representation from discriminative local regions are be key role in fine-grained visual classification(英語) 0.76
Employing attention mechanisms to extract part features has become a trend. 部分的特徴抽出のための注意機構の活用がトレンドとなっている。 0.68
However, there are two major limitations in these methods: First, they often focus on the most salient part while neglecting other inconspicuous but distinguishable parts. しかし、これらの方法には2つの大きな制限がある: まず、他の目立たないが区別可能な部分を無視しながら、最も健全な部分に焦点を当てることがしばしばである。 0.56
Second, they treat different part features in isolation while neglecting their relationships. 第2に、関係を無視しながら、異なる部分の特徴を分離して扱う。 0.58
To handle these limitations, we propose to locate multiple different distinguishable parts and explore their relationships in an explicit way. これらの制約に対処するために,複数の異なる識別可能な部分を見つけ,それらの関係を明示的な方法で探究することを提案する。 0.56
In this pursuit, we introduce two lightweight modules that can be easily plugged into existing convolutional neural networks. 本稿では,既存の畳み込みニューラルネットワークに簡単に接続可能な2つの軽量モジュールを提案する。 0.79
On one hand, we introduce a feature boosting and suppression module that boosts the most salient part of feature maps to obtain a part-specific representation and suppresses it to force the following network to mine other potential parts. 本稿では,特徴マップの最も顕著な部分を強化し,部分固有の表現を取得し,次のネットワークに他の潜在的な部品をマイニングさせるよう抑制する機能強化・抑制モジュールを提案する。 0.77
On the other hand, we introduce a feature diversification module that learns semantically complementary information from the correlated part-specific representations. 一方,相関した部分固有表現から意味的に補完的な情報を学習する特徴多様化モジュールを提案する。 0.80
Our method does not need bounding boxes/part annotations and can be trained end-to-end. 私たちのメソッドはバウンディングボックス/パーツアノテーションを必要とせず、エンドツーエンドでトレーニングできます。 0.49
Extensive experimental results show that our method achieves state-of-the-art performances on several benchmark fine-grained datasets. 広範な実験結果から,本手法は複数のベンチマークきめ細かなデータセットにおいて最先端の性能を得ることができた。 0.45
Index Terms—fine-grained, visual classification, attention, feature diversification, part-specific feature 索引項-きめ細かい、視覚的な分類、注意、特徴の多様化、部分固有の特徴 0.60
I. INTRODUCTION Fine-grained visual classification (FGVC) focuses on distinguishing subtle visual differences within a basic-level category, e g , species of birds [1] and dogs [2], and models of aircrafts [3] and cars [4]. 私。 導入 細粒度視覚分類(FGVC)は、基本的な分類、例えば、鳥類の種[1]と犬[2]、航空機のモデル[3]と車[4]における微妙な視覚的差異を区別することに焦点を当てている。 0.65
Recently, convolutional neural networks (CNNs) have made great progress on many vision tasks, such as image caption [5], semantic segmentation [6], object detection [7] [8], etc. 近年,画像キャプション[5],セマンティックセグメンテーション[6],オブジェクト検出[7][8]など,多くの視覚タスクにおいて,畳み込みニューラルネットワーク(CNN)が大きな進歩を遂げている。 0.78
However, traditional CNNs are not powerful enough to capture the subtle discriminative features due to the large intra-class and small inter-class variations as shown in Fig 1, which makes FGVC still a challenging task. しかし、従来のCNNは、図1に示すように、クラス内およびクラス間の大きなバリエーションのため、微妙な差別的特徴を捉えるのに十分なパワーを持っていないため、FGVCは依然として困難なタスクである。
訳抜け防止モード: しかし、従来のCNNは、大きなクラス内クラスによる微妙な差別的特徴を捉えるのに十分ではない。 クラス間の小さなバリエーションは 図1に示すように、FGVCは依然として困難なタスクです。
0.59
Therefore, how to make CNNs locate the distinguishable parts and learn discriminative features are important issues that need to be addressed. したがって、CNNが識別可能な部分を見つけ、差別的な特徴を学習する方法は、対処すべき重要な問題である。
訳抜け防止モード: したがって、CNNが識別可能な部分を特定し、識別的特徴を学習する方法 対処すべき重要な問題です
0.71
Early works [9] [10] [11] [12] relied on predefined bounding boxes and part annotations to capture visual differences. 初期の作品[9] [10] [11] [12] は、視覚の違いを捉えるために、予め定義された境界ボックスと部分アノテーションに依存していた。
訳抜け防止モード: 初期の作業 [9 ] [ 10 ] [ 11 ] [ 12 ] は事前に定義されたバウンディングボックスと部分アノテーションに依存していた 視覚的な違いを捉えます
0.67
However, collecting extra annotated information is labor-intensive and requires professional knowledge, which makes these methods less practical. しかしながら、追加の注釈情報収集は労働集約的であり、専門知識を必要とするため、これらの手法は実用的ではない。
訳抜け防止モード: しかし 追加の注釈情報収集は 労働は集中的であり、専門的な知識が必要です。
0.53
Hence, researchers recently have focused more on weakly-supervised FGVC that only needs image labels as supervision. したがって、最近研究者たちは、イメージラベルのみを監督する弱い監督されたFGVCに焦点を絞った。 0.52
There are two paradigms towards this direction. この方向には2つのパラダイムがある。 0.65
One is based on part features, these methods [13] [14] [15] [16] [17] are often これらの方法はしばしば[13] [14] [15] [16] [17]です。
訳抜け防止モード: 1つは部分的な特徴に基づいています これらの方法[13][14][15][16][17]は、しばしば
0.87
Fig. 1. Illustration of large intra-class and small inter-class variations in FGVC. フィギュア。 1. FGVCの大規模なクラス内および小さなクラス間バリエーションのイラストレーション。 0.66
The images with large variations in each row belong to the same class. 各列に大きなバリエーションを持つ画像は同じクラスに属する。 0.72
However, the images with small variations in each column belong to different classes. ただし、各列に小さなバリエーションを持つ画像は、異なるクラスに属します。 0.78
This situation is opposite to generic visual classification. この状況は一般的な視覚分類とは反対である。 0.64
composed of two different subnetworks. 2つのサブネットワークで構成される。 0.55
Specifically, a localization subnetwork with attention mechanisms is designed for locating discriminative parts and a classification subnetwork is followed for recognition. 具体的には、注意機構を有する局所化サブネットワークを識別部品の位置決め用に設計し、識別のために分類サブネットワークを追従する。 0.62
The dedicated loss functions are designed to optimize both subnetworks. 専用損失関数は、両方のサブネットワークを最適化するために設計されている。 0.53
The limitation of these methods is that it is difficult to optimize because of the specially designed attention modules and loss functions. これらの方法の限界は、特別に設計された注意モジュールと損失関数のため最適化が難しいことである。 0.80
The other is based on high-order information, these methods [18] [19] [20] [21] [22] argue that the first-order information is not sufficient to model the differences and instead use highorder information to encode the discrimination. もう一つは高次情報に基づいており、これらの手法 [18] [19] [20] [21] [22] は、差分をモデル化するのに一階情報は不十分であり、代わりに高次情報を用いて識別を符号化すると主張している。 0.66
The limitation of these methods is that it takes up a lot of GPU resources and has poor interpretability. これらの手法の限界は、多くのGPUリソースを消費し、解釈性に乏しいことである。 0.68
We propose feature boosting, suppression, and diversifying towards both efficiency and interpretability. 効率性と解釈性を兼ね備えた機能強化・抑制・多様化を提案します。 0.63
We argue that attention-based methods tend to focus on the most salient part, so other inconspicuous but distinguishable parts have no chance to stand out. 注意に基づく手法は最も有意義な部分に焦点を当てる傾向があるため、他の目立たないが区別可能な部分は目立たない。 0.74
However, the network will be forced to mine other potential parts when masking or suppressing the most salient part. しかし、ネットワークは、最も致命的な部分をマスキングまたは抑制するとき、他の潜在的な部品を採掘することを強制されます。
訳抜け防止モード: しかし ネットワークは 他の潜在的な部品を採掘する 最も有害な部分をマスキングまたは抑制する場合。
0.74
Based on this simple and effective idea, we introduce a feature boosting and suppression module (FBSM), which highlights the most salient part of feature maps at the current stage to obtain a part-specific representation and sup- このシンプルで効果的なアイデアに基づき、機能強化抑制モジュール(FBSM)を導入し、現在の段階で機能マップの最も顕著な部分を強調し、部分特異的な表現とsupを取得します。 0.78
英語(論文から抽出)日本語訳スコア
presses it to force the following stage to mine other potential parts. 押すと次のステージに 他の潜在的な部品を採掘させます 0.70
By inserting FBSMs into the middle layers of CNNs, we can get multiple part-specific feature representations that are explicitly concentrated on different object parts. CNNの中間層にFBSMを挿入することで、異なるオブジェクトに明示的に集中した複数の部分固有の特徴表現を得ることができる。 0.75
individual part-specific feature representation Intuitively, neglects the knowledge from the entire object and may not see the forest for the trees. 個々の部分固有の特徴表現は直感的に対象全体の知識を無視し、木々の森を見ない。 0.67
To eliminate the bias, we introduce a feature diversification module (FDM) to diversify each part-specific feature representation. バイアスをなくすために,各部分固有の特徴表現を多様化する特徴多様化モジュール(FDM)を導入する。 0.75
Specifically, given a partspecific representation, we enhance it by aggregating complementary information discovered from other parts. 具体的には,部分的な表現が与えられた場合,他の部分から発見された補完的情報を集約することで,その強化を図る。 0.49
Through modeling the part interaction with FDM, we make the partspecific feature representation more discriminative and rich. FDMとの相互作用をモデル化することにより、より差別的でリッチな特徴表現を実現する。 0.55
Finally, we jointly optimize FBSM and FDM as shown in Fig 2. 最後に、図2に示すようにFBSMとFDMを共同で最適化する。 0.66
Our method does not need bounding boxes/part annotations and state-of-the-art performances are reported on several standard benchmark datasets. 本手法はバウンディングボックス/パートアノテーションを必要とせず,いくつかの標準ベンチマークデータセットで最先端のパフォーマンスを報告している。 0.46
Moreover, our model is lightweight and easy to train as it does not involve the multicrop mechanism [13] [23] [14]. さらに,マルチクロップ機構 [13] [23] [14] を含まないため,モデルは軽量であり,訓練が容易である。 0.81
Our contributions are summarized as follows: • We propose a feature boosting and suppression module, which can explicitly force the network to focus on multiple discriminative parts. • ネットワークを複数の識別部分に集中させることを明示的に強制する機能強化および抑制モジュールを提案する。
訳抜け防止モード: 私たちの貢献は以下の通り要約される。 : • 機能強化・抑制モジュールを提案する。 複数の識別部品に ネットワークを集中させます
0.78
• We propose a feature diversification module, which can model part interaction and diversify each part-specific representation. • 部品相互作用をモデル化し、各部品固有の表現を多様化できる機能分散モジュールを提案する。 0.74
II. RELATED WORK Below, we review the most representative methods related to our method. II。 関連作業 以下に,本手法に関する代表的手法について概説する。 0.67
A. Fine-Grained Feature Learning Ding et al [17] proposed sparse selective sampling learning to obtain both discriminative and complementary regions. A. Fine-Grained Feature Learning Ding et al [17] proposed sparse selective sample learning to obtain both discriminative and complementary region。 0.91
Sun et al [24] proposed a one-squeeze multi-excitation module to learn multiple parts, then applied a multi-attention multiclass constraint on these parts. Sun et al [24]は、複数の部分を学ぶための一列マルチエキサイティングモジュールを提案し、これらの部分にマルチアテンションマルチクラス制約を適用した。 0.68
Zhang et al [25] proposed to discover contrastive clues by comparing image pairs. Zhang et al [25] は画像ペアを比較して対照的な手がかりを発見することを提案した。 0.59
Yang et al [15] introduced a navigator-teacher-sc rutinizer network to obtain discriminative regions. Yangらは[15]、識別領域を得るためのナビゲータ-教師-精査ネットワークを導入した。 0.53
Luo et al [26] proposed Cross-X learning to explore the relationships between different images and different layers. Luo et al [26]は、異なる画像と異なるレイヤーの関係を探求するためにCross-X学習を提案した。
訳抜け防止モード: Luo et al [26 ] proposed Cross - X learning 異なる画像と異なる層の間の関係を探るのです
0.84
Gao et al [27] proposed to model channel interaction to capture subtle differences. Gao et al [27]は、チャネル相互作用をモデル化し、微妙な違いを捉えることを提案した。 0.56
Li et al [20] proposed to capture the discrimination by matrix square root normalization and introduced an iterative method for fast end-to-end training. Li et al [20] は行列平方根正規化による識別を捉えることを提案し、高速なエンドツーエンドトレーニングのための反復的手法を導入した。 0.60
Our method utilizes feature boosting and suppression to learn different part representations in an explicit way, which is significantly different from previous methods. 提案手法は機能強化と抑制を利用して,従来の方法とは大きく異なる明示的な方法で異なる部分表現を学習する。 0.79
B. Feature Fusion FPN [8] and SSD [7] aggregating feature maps from different layers have achieved great success in the object detection field. B。 機能融合 fpn [8] とssd [7] 異なるレイヤのフィーチャーマップを集約することは、オブジェクト検出の分野で大きな成功を収めています。 0.77
However, they use element-wise addition as the aggregation operation, making the capabilities of these methods still limited. しかし、アグリゲーション操作として要素単位で追加するので、これらのメソッドの能力はまだ限られている。 0.61
Wang el at. Wang el at! 0.74
[28] proposed a non-local operation that computes the response at a spatial position [28]空間的位置での応答を計算する非局所演算の提案 0.84
as a weighted sum of the features at all positions in the feature maps. 機能マップ内のすべての位置における機能の重み付き合計として。 0.78
SG-Net [29] utilized the non-local operation to fuse feature maps from different layers. SG-Net [29] は非局所操作を利用して異なる層から特徴マップを融合した。 0.64
CIN [27] adopted the non-local operation to mine semantically complementary information from different feature channels. CIN[27]は、異なる特徴チャネルからのセマンティック補完情報をマイニングするために非局所操作を採用した。 0.64
Our FDM is similar with [29] and [27], but there are essential differences: (1) SG-Net tends to explore positive correlations to capture long-range dependencies, while FDM tends to explore negative correlations to diversify the feature representation. FDM は[29] と [27] と似ているが,(1) SG-Net は長距離依存を捉えるために正の相関を探索する傾向があり,一方 FDM は特徴表現を多様化するために負の相関を探索する傾向にある。 0.78
(2) CIN mines complementary information along channel dimension whereas FDM along the spatial dimension. 2) CINはチャネル次元に沿って補完情報をマイニングするが, FDMは空間次元に沿って採掘する。 0.66
III. METHODOLOGY In this section, we will detail the proposed method. III。 方法論 本節では,提案手法について詳述する。 0.62
An overview of the framework is shown in Fig 2. フレームワークの概要は図2に示します。 0.64
Our model consists of two lightweight modules: (1) A feature boosting and suppression module (FBSM) aiming at learning multiple discriminative part-specific representations as different as possible. 本モデルは2つの軽量モジュールから構成される。(1)複数の識別的部分固有表現の学習を目的とした機能強化・抑制モジュール(FBSM)。 0.75
(2) A feature diversification module (FDM) aiming at modeling part interaction to enhance each part-specific representation. 2)各部品固有の表現を高めるための部品相互作用のモデリングを目的とした機能分散モジュール(FDM)。 0.75
A. Feature Boosting and Suppression Module Given feature maps X ∈ RC×W×H from a specific layer, where C, W , H represents the number of channels, width and height respectively. A。 特徴ブースティングと抑圧モジュール 特定の層から特徴写像 X ∈ RC×W×H を与えられたとき、C, W , H はそれぞれチャネルの数、幅、高さを表す。 0.77
We split X evenly into k parts along width dimension [30] and denote each striped parts as X(i) ∈ RC×(W/k)×H, i ∈ [1, k]. 幅寸法[30]に沿ってXをk部分に均等に分割し、各ストライプパーツをX(i) ∈ RC×(W/k)×H, i ∈ [1, k]と表現します。 0.85
Then we employ a 1× 1 convolution φ to explore the importance of each part: (1) The nonlinear function Relu [31] is applied to remove the negative activations. 次に、1×1の畳み込みφを用いて各部分の重要性を探索する: 1) 非線形関数 Relu [31] を適用して負の活性化を除去する。 0.83
φ is shared among different striped parts and acts as a grader. φは異なる縞模様の部分で共有され、グレーダーとして機能する。 0.57
We then take the average of A(i) as the importance factor b(cid:48) 次に、A(i) の平均を重要因子 b(cid:48) とみなす。 0.82
A(i) = Relu(φ(X(i))) ∈ R1×(W/k)×H A(i) = Relu(φ(X(i))) ∈ R1×(W/k)×H 1.00
i for X(i), i.e., i = GAP(A(i)) ∈ R b(cid:48) (2) where GAP denotes global average pooling. i for X(i)、すなわち i = GAP(A(i)) ∈ R b(cid:48) (2) ここで GAP はグローバル平均プールを意味する。 0.85
We use softmax 1,··· , b(cid:48) to normalize B(cid:48) = (b(cid:48) k)T : (cid:80) exp(b(cid:48) i) bi = j∈[1,k] exp(b(cid:48) j) ソフトマックス 1,···· , b(cid:48) を用いて b(cid:48) = (b(cid:48) k)t : (cid:80) exp(b(cid:48) i) bi = j ال[1,k] exp(b(cid:48) j) を正規化する。 0.82
(3) With the normalized importance factors B = (b1,··· , bk)T , the most salient part can be determined immediately. (3) 正規化重要度因子 b = (b1,··· , bk)t により、最も顕著な部分はすぐに決定できる。
訳抜け防止モード: (3) 正規化された重要因子B = (b1, · · · ·, bk)T が最も顕著な部分は直ちに決定できる。
0.87
We then obtain the boosting feature Xb by boosting the most salient part: (4) where α is a hyper-parameter, which controls the extent of boosting, ⊗ denotes element-wise multiplication. (4) α が超パラメータであり、増進の度合いを制御している場合、α は要素ワイド乗算を表す。
訳抜け防止モード: 次に, α がハイパーパラメータであるような最も健全な部分 (4 ) をブーストすることで, ブースト機能 Xb を得る。 上昇の程度を制御します は要素を表す -賢い乗法。
0.63
A convolutional layer h is applied on Xb to get a part-specific representation Xp: (5) By suppressing the most striped part, we can obtain the suppression feature Xs: Xb に畳み込み層 h を適用して部分特異的表現 Xp: (5) 最も縞模様のある部分を抑制することで、抑制特徴 Xs を得ることができる。 0.86
Xb = X + α ∗ (B ⊗ X) Xb = X + α ∗ (B = X) 0.83
Xp = h(Xb) Xp = h(Xb) 0.85
Xs = S ⊗ X Xs = S > X 0.81
(6) (6) 0.85
英語(論文から抽出)日本語訳スコア
Fig. 2. The overview of our method. フィギュア。 2. 我々の方法を概観する。 0.69
(cid:40) Fig. (cid:40)図。 0.81
3. The diagram of the FBSM. 3. FBSMの図。 0.68
1 − β, 1, if bi = max(B) otherwise 1 − β, 1, もし bi = max(B) でなければ 0.88
si = (7) where S = (s1,··· , sk)T , β is a hyper-parameter, which control the extent of suppressing. si = (7) ここで s = (s1,···· , sk)t , β は超パラメータであり、抑制の程度を制御する。 0.82
the functionality of FBSM can be expressed In short, as: FBSM(X) = (Xp, Xs). fbsmの機能は、略して fbsm(x) = (xp, xs) と表現できる。 0.53
Given feature maps X, FBSM outputs part-specific feature Xp and potential feature maps Xs. 特徴写像 X が与えられると、FBSM は部分固有の特徴写像 Xp と潜在的な特徴写像 Xs を出力する。 0.52
Since Xs suppresses the most salient part in current stage, other potential parts will stand out after feeding Xs into the following stage. Xsは現在の段階で最も健全な部分を抑制しているため、次の段階にXsを供給した後、他の潜在的な部分は際立たなくなる。 0.58
A diagram of the FBSM is shown in Fig 3. fbsmの図は図3に示されています。 0.73
B. Feature Diversification Module As learning discriminative and diverse feature plays a key role in FGVC [32] [24] [23], we propose a feature diver- B。 fgvc [32] [24] [23] では, 特徴の識別と多様性が重要な役割を担っている, 特徴の多様化モジュールを提案する。 0.76
sification module, which enhances each part-specific feature by aggregating complementary information mined from other part-specific representations. sificationモジュールは、他の部分固有の表現から抽出された補完情報を集約することで、各部分固有の特徴を強化する。 0.47
We first discuss how two part-specific features diversify each other with the pairwise complement module (PCM). まず,2つの部分特化特徴が相互補完モジュール (PCM) によってどのように多様化するかを論じる。 0.67
A simple illustration of PCM is shown in Fig 4. PCMの簡単なイラストを図4に示します。 0.79
Without loss of generality, we denote two different part-specific features as Xp1 ∈ RC×W1H1 and Xp2 ∈ RC×W2H2, where C denotes the number of channels, W1H1 and W2H2 denote their spatial size respectively. 一般性を損なうことなく、xp1 ∈ rc×w1h1 と xp2 ∈ rc×w2h2 という2つの異なる部分特有な特徴を示し、c はチャネルの数を表し、w1h1 と w2h2 はそれぞれ空間サイズを表す。
訳抜け防止モード: 一般性を欠くことなく、Xp1 ∈ RC×W1H1 と Xp2 ∈ RC×W2H2 の2つの異なる部分を表す。 C がチャネル数を表す場合、W1H1 と W2H2 はそれぞれの空間サイズを表す。
0.63
We use subscript pi to denote that Xpi focuses on the ith part of the object and will omit the subscript when there is no ambiguity. Xpi がオブジェクトの ith 部分に焦点を当てていることを示すためにsubscript pi を使用し、曖昧さがない場合にはサブスクリプトを省略します。 0.68
We denote the feature vector at each spatial position along channel dimension as a pixel, i.e., チャネル次元に沿って各空間位置の特徴ベクトルを画素、すなわち画素として表す。 0.80
pixel(X, i) = (X1,i,··· , XC,i)T pixel(X, i) = (X1,i,・・・,XC,i)T 0.97
(8) We first calculate the similarities between pixels in Xp1 and pixels in Xp2: (8)まずXp1のピクセルとXp2のピクセルの類似性を計算する。 0.81
f (X, Y ) = X T Y f (X, Y ) = X T Y 0.85
M = f (Xp1 , Xp2 ), M = f (Xp1 , Xp2 )。 0.92
(9) Here, we use inner product to compute the similarity. (9)ここでは内積を用いて類似度を計算する。 0.78
The element Mi,j represents the similarity of the ith pixel of Xp1 and the jth pixel of Xp2. 要素 Mi,j は Xp1 のイットピクセルと Xp2 の jth ピクセルの類似性を表す。 0.81
The lower the similarity of two pixels is, the more complementary they are, so we adopt −M as the complementary matrix. 2つのピクセルの類似度が低いほど相補的になるので、補行列として −M を採用する。 0.72
Then we operate normalization on −M row-wise and column-wise respectively: = softmax(−M T ) ∈ [0, 1]W2H2×W1H1 = softmax(−M ) ∈ [0, 1]W1H1×W2H2 次に、-M行方向と列方向にそれぞれ正規化を演算する: = Softmax(−M T ) ∈ [0, 1]W2H2×W1H1 = softmax(−M ) ∈ [0, 1]W1H1×W2H2 0.66
(10) (11) Ap2 p1 Ap1 p2 (10) (11) Ap2 p1 Ap1 p2 0.75
GAPclassifierGAPclas sifierGAPclassifiers tage1-3stage4stage5𝑋𝑝1𝑋𝑝2𝑋𝑝3𝑍𝑝1𝑍𝑝2𝑍𝑝3𝑌𝑝1𝑝2𝑌𝑝2𝑝1𝑌𝑝1𝑝3𝑌𝑝3𝑝1𝑌𝑝2𝑝3𝑌𝑝3𝑝2FDM𝑋𝑝1𝑋𝑝2𝑋𝑝3striped feature mapsscore mapssuppression factorimportance factorconvblocksfeat ure boostingfeature suppressionpart-spec ific feature 𝑋𝑝feature maps 𝑋splitscoreGAPpotenti alfeature maps 𝑋𝑠 gapclassifier gapclassifier gapclassifier stage1-3stage4stage5 xp2xp3zp1zp2zp3yp1p2 yp2p1yp1p1p3yp3p3p3y p3p3p3yp3p3fdmxp3p2f dmxp1xp2xp3striped feature mapsscore mapssuppression factorimportance factorconvblocks feature reductionpart-specif ic feature xpfeature maps xsplitscoregappotent ial features maps xs 0.20
英語(論文から抽出)日本語訳スコア
FOUR FINE-GRAINED DATASETS COMMONLY USED IN FGVC. FGVCで一般的に使用されるFOUR FINE-GRAINEDデータセット。 0.38
TABLE I Dataset テーブルI データセット 0.55
CUB-200-2011 FGVC-Aircraft Stanford Cars Stanford Dogs CUB-200-2011 FGVC-Aircraft Stanford Cars Stanford Dogs 0.63
Name Bird Aircraft Car Dog Name Bird Aircraft Car Dog 0.85
#Class 200 100 196 120 クラス200 100 196 120 0.59
#Train 5994 6667 8144 12000 ナンバーTrain 5994 6667 8144 12000 0.71
#Test 5794 3333 8041 8580 #Test 5794 3333 8041 8580 0.85
of stage3, stage4, stage5. ステージ3、ステージ4、ステージ5です 0.74
The different part-specific representations generated by FBSMs are fed into FDM to diversify each representation. FBSMによって生成された異なる部分特異的表現はFDMに入力され、各表現を多様化する。 0.56
Our method is highly customizable, it can adapt to different granularities of classification by adjusting the number of FBSMs directly. 本手法は高度にカスタマイズ可能であり,FBSMの数を直接調整することで,分類の粒度に適応することができる。 0.71
At training time, we compute the classification loss for each enhanced part-specific feature Zpi: cls = −yT log(pi), Li トレーニング時に、拡張された各部分固有の特徴 zpi: cls = −yt log(pi), li の分類損失を計算する。 0.76
(17) where y is the ground-truth label of the input image and represented by one-hot vector, clsi is a classifier for the ith part, pi ∈ RN is the prediction score vector, N is the number of object categories. (17) y が入力画像の接地真ラベルであり、1ホットベクトルで表される場合、clsi はイット部分の分類器であり、pi ∈ RN は予測スコアベクトルであり、N はオブジェクトカテゴリの数である。 0.85
The final optimization objective is: 最終的な最適化目標は 0.83
pi = softmax(clsi(Zpi)) T(cid:88) i=1 pi = softmax(clsi(Zpi)) T(cid:88) i=1 0.93
Li cls (18) Li cls (18) 0.85
L = where T = 3 is the number of enhanced part-specific features. L = ここで T = 3 は強化された部分特有な特徴の数である。 0.75
At inference time, we take the average of prediction scores for all enhanced part-specific features as the final prediction result. 推測時において,全ての拡張部分特化特徴に対する予測スコアの平均を最終予測結果とみなす。 0.85
IV. EXPERIMENTS A. Datasets and Baselines We evaluate our model on four commonly used datasets: CUB-200-2011 [1], FGVC-Aircraft [3], Stanford Cars [4], Stanford Dogs [2]. IV。 実験 a. データセットとベースライン cub-200-2011 [1], fgvc-aircraft [3], stanford cars [4], stanford dogs [2] という4つの一般的なデータセットでモデルを評価する。 0.66
The details of each dataset can be found in Table I. 各データセットの詳細は、表Iで確認できます。 0.71
We compare our model with following baselines due to their state-of-the-art results. 現状の結果から,我々のモデルと下記のベースラインを比較した。 0.69
All baselines are listed as follows: • Part-RCNN [9]: proposes geometric constraints on mined semantic parts to normalize the pose. • Part-RCNN [9]: ポーズを正規化するために、マイニングされたセマンティック部分に幾何学的な制約を提案する。 0.65
• DeepLAC [10]: integrates part localization, part alignment, and classification in one deep neural network. • DeepLAC [10]: 1つのディープニューラルネットワークに部分局在化、部分アライメント、分類を統合する。 0.80
• S3N [17]: learns to mine discriminative and complementary parts to enhance the feature learning. • S3N [17]: 特徴学習を強化するために、差別的かつ相補的な部分をマイニングすることを学ぶ。
訳抜け防止モード: • S3N [17 ] : 識別的および補完的部分のマイニングを学ぶ 機能学習を強化するため。
0.78
• API-Net [25]: proposes an attentive pairwise interaction network to identify differences by comparing image pairs. • API-Net [25]: 画像対を比較して差異を識別するための注意深いペアワイズインタラクションネットワークを提案する。 0.78
• NTS [15]: guides region proposal network by forcing the consistency between informativeness of the regions and their probabilities being ground-truth class. • nts [15]: 地域の情報性とその確率の一貫性を地上クラスに強制することにより、地域提案ネットワークを案内する。 0.79
• MGE-CNN [16]: learns a mixture of granularity-specific experts to capture granularity-specific parts. • MGE-CNN [16]: 粒度固有の専門家の混合を学び、粒度固有の部分を捉える。 0.64
• DCL [34]: learns to destruct and construct the image to acquire the expert knowledge. • DCL[34]: 専門家の知識を得るために、画像を分解して構築することを学ぶ。 0.78
• MAMC [24]: applies the multi-attention multi-class constraint in a metric learning framework to mine parts. •MAMC[24]: メトリクス学習フレームワークにマルチアテンションのマルチクラス制約を適用して部品をマイニングする。 0.82
• MA-CNN [32]: makes part mining and fine-grained features learning in a mutual reinforced way. •MA-CNN [32]: 相互強化された方法で、部分マイニングときめ細かい特徴学習を行う。 0.74
Fig. 4. The diagram of the PCM. フィギュア。 4. PCMの図。 0.60
, i) = (Ap2 p1 , i) = (Ap2p1) 0.72
(14) Y p2 p1 Y p1 p2 (14) Y p2 p1 Y p1 p2 0.80
∈ RC×W1H1 ∈ RC×W2H2 ∈ RC×W1H1 ∈ RC×W2H2 0.53
where Y pj relative to Xpj . Xpj に対して Y pj である。 0.71
It is worth noting that each pixel of Y p2 be written as: )i,j ∗ pixel(Xp2, j) pixel(Y p2 p1 注意すべき点は、Y p2の各ピクセルを次のように書くことである。 )i,j ∗ pixel(Xp2, j) pixel(Y p2 p1)
訳抜け防止モード: y p2 の各ピクセルは : ) i と書くことに注意する価値がある。 j ∗ pixel(xp2 , j ) pixel(y p2 p1)
0.88
(12) (13) pi denotes the complementary information of Xpi p1 can (12) (13) pi は Xpi p1 can の相補的な情報を表す 0.90
where softmax is performed column-wise. カラムごとにsoftmaxが実行される。 0.59
Then we can get the complementary information: = Xp2 Ap2 p1 = Xp1 Ap1 p2 (cid:88) j∈[1,W2H2] takes all pixels of Xp2 as references, i.e., each pixel of Y p2 p1 and the higher the complementarity between pixel(Xp1, i) and pixel(Xp2, j) is, the greater the contribution of pixel(Xp2, j) to pixel(Y p2 in these two p1 part-specific features can mine semantically complementary information from each other. Xp2 Ap2 p1 = Xp1 Ap1 p2 (cid:88) j∈[1,W2H2] は、Xp2のすべてのピクセルを参照として取ります。つまり、Y p2 p1の各ピクセルは、ピクセル(Xp1, i)とピクセル(Xp2, j)の間の相補性が高いほど、ピクセル(Xp2, j)からピクセル(Yp2)への寄与が大きくなります。 0.72
Now we discuss the general case. さて、一般的な事例について論じる。 0.50
Formally, given a collection of part-specific features P = {Xp1, Xp2, Xp3 ··· , Xpn}, (cid:88) the complementary information of Xpi is: (15) Y pj pi Xpj ∈P∧i(cid:54)=j 形式的には、部分特異な特徴 P = {Xp1, Xp2, Xp3 · · , Xpn}, (cid:88) の集合を考えると、Xpi の相補的情報は (15) Y pj pi Xpj ∈P\i(cid:54)=j である。 0.74
, i) is. In this way, every pixel 、私は)です。 このように、すべてのピクセル。 0.72
Ypi = where Y pj pi can be obtained by applying Xpi and Xpj on (9), (10), and (12). Ypi = ここでYpj piは(9)、(10)、(12)にXpiとXpjを適用することによって得られる。 0.81
In practice, we can compute Y pj pi and Y pi pj simultaneously as shown in Fig 4. 実際には、図4に示すように、Y pj pi と Y pi pj を同時に計算できる。 0.85
Then we get the enhanced part-specific feature: そして、強化された部分特化機能を得る。 0.53
Zpi = Xpi + γ ∗ Ypi Zpi = Xpi + γ ∗ Ypi 0.85
(16) where γ is a hyper-parameter, which controls the extent of diversification. (16) ここでγは、分散の程度を制御するハイパーパラメータである。 0.75
C. Network Design Our method can be easily implemented on various convolutional neural networks. c. ネットワーク設計 この手法は様々な畳み込みニューラルネットワークに容易に実装できる。 0.86
As shown in Fig 2, we take Resnet [33] as the backbone in our experiment. 図2に示すように、Resnet [33]を実験のバックボーンとして取ります。 0.67
The feature extractor of Resnet has five stages and the spatial size of feature maps is halved after each stage. Resnetの特徴抽出器は5つのステージを有し、各ステージの後に特徴マップの空間サイズを半減する。 0.74
Considering that the deep layers have more semantic information, we plug FBSMs into the end 深い層がより意味のある情報を持っていることを考慮し、最後にFBSMを差し込む 0.70
𝑋𝑝1∈𝑅𝐶×𝑊1×𝐻1similarity matrixcomplementary matrixcomplementary information 𝑌𝑝2𝑝1𝑋𝑝2∈𝑅𝐶×𝑊2×𝐻2complementary information 𝑌𝑝1𝑝2inverse Xp1∈RC×W1×H1similarity matrixcomplementary matrixcomplementary information Yp2p1Xp2∈RC×W2×H2complementary information Yp1p2inverse 0.31
英語(論文から抽出)日本語訳スコア
COMPARISON WITH STATE-OF-THE-ART METHODS ON FOUR FINE-GRAINED BENCHMARK DATASETS. FINE-GRAINED BENCHMARKデータセットにおける定常最新手法との比較 0.40
“-” MEANS THE RESULT IS NOT MENTIONED IN THE 「-」とは、結果が記載されていないこと。 0.48
TABLE II RELEVANT PAPER. テーブルII 回収用紙。 0.52
Methods DeepLAC Part-RCNN RA-CNN MA-CNN MAMC NTS API-Net Cross-X DCL DTB-Net CIN LIO DeepLAC Part-RCNN RA-CNN MA-CNN NTS API-Net Cross-X DCL DTB-Net CIN LIO 0.65
ISQRT-COV MGE-CNN ISQRT-COVMGE-CNN 0.55
S3N FDL Ours MAMC DTB-Net CIN API-Net ISQRT-COV MGE-CNN S3N FDLのMAMC DTB-Net CIN API-Net ISQRT-COV MGE-CNN 0.57
Ours Backbone VGG VGG VGG VGG Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet101 Resnet101 Resnet101 Resnet101 Resnet101 Resnet101 Resnet101 我々の Backbone VGG VG VG VG Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet50 Resnet101 Resnet101 Resnet101 Resnet101 Resnet101 Resnet101 Resnet101 Resnet101 Resnet101 0.64
1-Stage × × × (cid:8) (cid:8) × (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) × × × (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) × (cid:8) 1-Stage × × × (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) × × × (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) (cid:8) × (cid:8) 0.71
CUB-200-2011 CUB-200-2011 0.39
80.3 81.6 85.3 86.5 86.2 87.5 87.7 87.7 87.8 87.5 87.5 88.0 88.1 88.5 88.5 88.6 89.3 86.5 88.1 88.1 88.6 88.7 89.4 89.5 80.3 81.6 85.3 86.5 86.2 87.5 87.7 87.7 87.8 87.5 87.5 88.0 88.1 88.5 88.5 88.6 89.3 86.5 88.1 88.1 88.6 88.7 89.4 89.5 0.40
FGVC-Aircraft FGVC-Aircraft 0.59
88.1 89.991.4 93.0 92.6 93.0 91.2 92.6 92.7 90.092.8 93.4 92.791.6 92.8 93.4 91.493.1 88.1 89.991.4 93.0 92.6 93.0 91.2 92.6 92.7 90.092.8 93.4 92.791.6 92.8 93.4 91.493.1 0.35
Stanford Cars 92.5 92.8 92.8 93.3 94.8 94.5 94.5 94.1 94.1 94.5 92.8 93.9 94.7 94.3 94.4 93.0 94.5 94.5 94.9 93.3 93.6 95.0 スタンフォード車 92.5 92.8 92.8 93.3 94.8 94.5 94.5 94.1 94.1 94.5 92.8 93.9 94.7 94.3 94.4 93.0 94.5 94.5 94.9 93.3 93.6 95.0 0.50
Stanford Dogs スタンフォード大学犬 0.69
87.384.888.3 88.985.0 88.2 85.290.389.4 87.384.888.3 88.985.0 88.2 85.290.389.4 0.26
• RA-CNN [13]: learns discriminative region attention at multiple scales recursively. • RA-CNN [13]: 複数の尺度で識別領域の注意を再帰的に学習する。 0.70
• ISQRT-COV [18]: utilizes bilinear information to model pairwise interaction. • ISQRT-COV [18]: 双方向情報を用いて相互相互作用をモデル化する。 0.72
• DBT-Net [35]: performs bilinear transformation on each semantically consistent channel group to model highorder information. • DBT-Net [35]: 各意味論的一貫したチャネル群上で双線形変換を行い、高次情報をモデル化する。 0.67
• Cross-X [26]: proposes to learn multi-scale feature representation between different layers and different images. • Cross-X [26]: 異なるレイヤーと異なるイメージ間でのマルチスケールな特徴表現の学習を提案する。
訳抜け防止モード: •クロス-X [26 ] : 提案 to learn multi-scale feature representation between different layer and different image。
0.94
• CIN [27]: models channel interaction to mine semantically complementary information. • CIN [27]: セマンティック補完情報をマイニングするためのチャネルインタラクションをモデル化する。 0.75
• FDL [14]: proposes to enhance discriminative region attention by filtration and distillation learning. • FDL [14]:ろ過および蒸留の学習によって識別区域の注意を高めるために提案します。 0.75
• LIO [36]: proposes to model internal structure of the object to enhance feature learning. • LIO [36]: 特徴学習を強化するためにオブジェクトの内部構造をモデル化することを提案する。 0.87
B. Implementation Details We validate the performance of our method on Resnet50 and Resnet101 [33], which are all pre-trained on the ImageNet dataset [37]. B。 実装の詳細 我々は、imagenetデータセット[37]で事前トレーニングされたresnet50とresnet101 [33]のメソッドのパフォーマンスを検証する。 0.79
We insert FBSMs at the end of stage3, stage4 and stage5. ステージ3,ステージ4,ステージ5の最後にFBSMを挿入する。 0.77
During training, the input images are resized to 550 × 550 and randomly cropped to 448 × 448. トレーニング中、入力画像は550×550にリサイズされ、ランダムに448×448にトリミングされる。 0.77
We apply random horizontal flips to augment the trainset. ランダムな水平フリップを適用してトレインセットを補強する。 0.56
During testing, the input images are resized to 550 × 550 and cropped from center into 448× 448. テスト中、入力画像は550×550にリサイズされ、中央から448×448にトリミングされる。 0.77
We set hyper-parameters α = 0.5, β = 0.5 and γ = 1. ハイパーパラメータ α = 0.5, β = 0.5, γ = 1 とする。 0.70
Our model is optimized by Stochastic Gradient Descent with the momentum of 0.9, epoch number of 200, weight decay of 0.00001, mini-batch of 20. 本モデルでは,Stochastic Gradient Descent の運動量 0.9,エポック数 200,ウェイト崩壊 0.00001,ミニバッチ 20 で最適化した。 0.85
The learning rate of the backbone layers is set to 0.002, and the newly added layers are set to 0.02. バックボーン層の学習率を0.002とし、新たに追加されたレイヤを0.02とする。 0.73
The learning rate is adjusted by cosine anneal scheduler [38]. 学習率はコサインアニールスケジューラ[38]によって調整されます。 0.73
We use PyTorch to implement our experiments. PyTorchを使って実験を行っています。 0.72
take the raw image as input at 入力として生の画像を取る 0.76
C. Comparison with State-of-the-Art The top-1 classification accuracy on CUB-200-2011 [1], FGVC-Aircraft [3], Stanford Cars [4] and Stanford Dogs [2] datasets are reported in Table II. The top-1 classification accuracy on CUB-200-2011 [1], FGVC-Aircraft [3], Stanford Cars [4] and Stanford Dogs [2] datasets are reported in Table II。 0.77
Results on CUB-200-2011: CUB-200-2011 is the most challenging benchmark in FGVC, our models based on Resnet50 and Resnet101 both achieve the best performances on this dataset. CUB-200-2011: CUB-200-2011はFGVCで最も難しいベンチマークであり、我々のモデルはResnet50とResnet101に基づく。 0.68
Compared with DeepLAC and Part-RCNN which use predefined bounding boxes/part annotations, our method is 9.0%, 7.7% higher than them. 定義済みのバウンディングボックス/パートアノテーションを使用するDeepLACやPart-RCNNと比較して,本手法の方が9.0%,7.7%高い。 0.64
Compared with the two-stage methods: RA-CNN, NTS, MGE-CNN, S3N, and FDL, which all the first stage to explore informative regions and takes them as input at the second stage, our model is 4.0%, 1.8%, 0.8%, 0.8%, 0.7% higher than them respectively. RA-CNN,NTS,MGE-CNN,S 3N,FDLの2段階に比較して,情報領域を探索し,第2段階に入力する手法は,それぞれ4.0%,1.8%,0.8%,0.7%, 0.7%であった。 0.77
ISQRT-COV and DTB-Net explore high-order information to capture the subtle differences, our method outperforms them by large margins. ISQRT-COVとDTB-Netは、微妙な違いを捉えるために高次情報を探索します。 0.49
Compared with API-Net and Cross-X, which both take image pairs as input and model the discrimination by part interaction, our model gets 1.6% improvements. API-NetとCross-Xはどちらもイメージペアを入力として取り、パートインタラクションによる識別をモデル化していますが、私たちのモデルは1.6%改善されています。
訳抜け防止モード: API - NetとCross - Xの比較 イメージペアを入力として、部分的相互作用による識別をモデル化します。 モデルの改善率は1.6%です
0.70
The accuracy of our method is 3.1% higher than MAMC, which formulates part mining into a metric learning problem. この手法の精度はMAMCよりも3.1%高く、パースマイニングを計量学習問題に定式化する。 0.73
Compared with MACNN, CIN, and LIO, our method is 2.8%, 1.9%, 1.3% higher than them respectively. MACNN, CIN, LIOと比較すると, それぞれ2.8%, 1.9%, 1.3%高い値を示した。 0.81
DCL spots discriminative parts by diving into the destructed image, our method surpasses it by 1.5%. DCLは、分解された画像に飛び込み、識別する部分を1.5%上回ります。 0.64
Notably, our method based on Resnet50 outperforms almost all other methods based on Resnet101. 特に,Resnet50に基づく手法は,Resnet101に基づく他の手法よりも優れています。 0.56
Results on FGVC-Aircraft: Our method gets competitive results on this dataset. FGVC-Aircraftの結果: 我々の手法はこのデータセットで競合する結果を得る。 0.65
Compare with RA-CNN and MA-CNN, our method exceeds them by large margins. RA-CNN や MA-CNN と比較すると,本手法は差が大きい。 0.67
With Resnet50 backbone, our model is 2.7%, 1.5%, 1.3%, 0.1%, 0.1% higher resnet50 backboneでは、このモデルは2.7%、1.5%、1.3%、0.1%、0.1%高いです。 0.53
英語(論文から抽出)日本語訳スコア
Fig. 5. Visualization of the activation maps at different stages with and without FBSMs on four benchmark datasets. フィギュア。 5. 4つのベンチマークデータセット上のFBSMの有無にかかわらず、異なる段階でのアクティベーションマップの可視化。 0.67
than ISQRT-COV, DTB-Net, NTS, Cross-X, and CIN respectively. ISQRT-COV、DTB-Net、NTS、Cross-XおよびCINよりそれぞれ。 0.74
LIO that enhances feature learning by modeling object structure obtains the same result as our model. オブジェクト構造をモデル化することで特徴学習を強化するLOOは、我々のモデルと同じ結果を得る。 0.70
Our model is 0.1%, 0.3%, 0.3%, 0.7% lower than S3N, DCL, API-Net and FDL. 我々のモデルは、s3n、dcl、api-net、fdlよりも0.1%、0.3%、0.7%低い。 0.61
However, S3N and FDL are both two-stage methods whereas our method is one-stage and more efficient. しかし,S3NとFDLはどちらも2段階法であり,本手法は1段階法であり,より効率的である。 0.58
DCL destructs the image to locate discriminative regions, but it is not easy to define what level of destruction is appropriate. DCLは画像を分解して識別領域を見つけるが、どのレベルの破壊が適切かを定義することは容易ではない。 0.76
APINet needs to consider different pairwise image combinations and requires large computing resources. APINetは、異なるペアワイズイメージの組み合わせを検討し、大規模なコンピューティングリソースを必要とする。 0.64
Results on Stanford Cars: Our method equipped with Resnet101 gets the best result on this dataset. スタンフォードカーの結果: Resnet101を搭載した我々の方法は、このデータセットで最高の結果を得る。 0.63
Our method exceeds RA-CNN and MA-CNN which use VGG [39] as backbone by large margins. 本手法はVGG[39]をバックボーンとして用いたRA-CNNとMA-CNNを超える。 0.63
With Resnet50 backbone, our method is higher than ISQRT-COV, MAMC, NTS, MEG-CNN, DTBNet, CIN, and FDL but lower than DCL, LIO, Cross-X, S3N, and API-Net. Resnet50のバックボーンでは、ISQRT-COV, MAMC, NTS, MEG-CNN, DTBNet, CIN, FDLよりも高いが、DCL, LIO, Cross-X, S3N, API-Netより低い。 0.73
We suspect that features extracted from shadow layers (stage3&stage4) lack rich semantic information, which may cause degradation of recognition performance. 影の層(ステージ3&ステージ4)から抽出された特徴は、認識性能の低下を引き起こす可能性がある豊富な意味情報がないと疑っています。 0.61
When deepening the network and taking Resnet101 as the backbone, we obtain the best result of 95.0%. ネットワークを深くし、Resnet101をバックボーンとすると、95.0%の最良の結果が得られる。 0.78
Results on Stanford Dogs: Most previous methods do not report results on this dataset because of the computational complexity. 以前のほとんどの方法は、計算の複雑さのため、このデータセットの結果を報告しません。 0.61
Our method obtains a competitive result on this dataset and surpasses RA-CNN, MAMC, and FDL by large margins. 本手法は, RA-CNN, MAMC, FDLを大差で上回り, 競合する結果を得る。 0.61
Compared with Cross-X and API-Net which take image pairs as input, our method does not need to consider how to design a non-trivial data sampler to sample inter-class and intra-class image pairs [40]. 画像ペアを入力として利用するCross-XやAPI-Netと比較して、クラス間およびクラス内画像ペアをサンプリングする非自明なデータサンプリングを設計する方法を考える必要はない [40]。 0.75
In summary, due to the simplicity and effectiveness of our model, it scales well to all four benchmark datasets. 要約すると、モデルの単純さと有効性のため、4つのベンチマークデータセットすべてによく対応しています。 0.65
With Resnet50 backbone, API-Net and Cross-X obtain the best result on Stanford Cars and Stanford Dogs respectively, but both get poor results on CUB-200-2011. Resnet50のバックボーンでは、API-NetとCross-XがそれぞれStanford CarsとStanford Dogsで最高の結果を得るが、どちらもCUB-200-2011で劣っている。 0.59
FDL obtains the best result on FGVC-Aircraft but behaves inferiorly on Stanford Dogs. FDLはFGVC-Aircraftで最高の結果を得るが、Stanford Dogsでは劣等に振る舞う。 0.68
Our model achieves the best result on CUB-200-2011 and relatively good results on the other three datasets. 私たちのモデルは、CUB-200-2011で最高の結果を達成し、他の3つのデータセットで比較的良い結果が得られます。 0.51
D. Ablation Studies We perform ablation studies to understand the contributions of each proposed module. D.アブレーション研究 各提案モジュールの貢献を理解するためのアブレーション研究を行います。 0.71
We take experiments on four ABLATION STUDIES ON FOUR BENCHMARK DATASETS Dog 81.1 87.5 88.2 4つの実験を行い FOUR BENCHMARK Datasets Dog 81.1 87.5 88.2の記述 0.72
Bird 85.5 88.9 Resnet50+FBSM+FDM 89.3 Bird 85.5 88.9 Resnet50+FBSM+FDM 89.3 0.42
Methods Resnet50 方法 Resnet50 0.81
Resnet50+FBSM Resnet50+FBSM 0.47
TABLE III Aircraft 90.3 92.4 92.7 テーブルIII 航空機 90.3 92.4 92.7 0.55
Car 89.8 94.0 94.4 89.8 94.0 94.4 0.45
datasets with Resnet50 as backbone. Resnet50をバックボーンとするデータセット。 0.68
The results are reported in Table III. 結果は表IIIに報告されています。 0.68
The effect of FBSM: To obtain multiple discriminative part-specific feature representations, we insert FBSMs at the end of stage3, stage4 and stage5 of Resnet50. FBSMは,複数の特徴表現を識別するために,Resnet50のステージ3,ステージ4,ステージ5の最後にFBSMを挿入する。 0.73
With this module, the accuracy of Bird, Aircraft, Car, and Dog increased by 3.4%, 2.1%, 4.2%, and 6.4% respectively, which reflects the effectiveness of the FBSM. このモジュールにより、fbsmの有効性を反映したバード、エアクラフト、カー、ドッグの精度がそれぞれ3.4%向上し、2.1%、4.2%、および6.4%向上した。 0.64
The effect of FDM: When introducing FDM into our approach to model part interaction, the classification results on Bird, Aircraft, Car, and Dog datasets increased by 0.4%, 0.3%, 0.4%, and 0.7% respectively, which indicates the effectiveness of the FDM. FDMの効果:FDMをモデル部分間相互作用に導入すると,鳥,航空機,車,犬のデータセットの分類結果はそれぞれ0.4%,0.3%,0.4%,および0.7%増加し,FDMの有効性を示した。 0.91
E. Visualization We visualize the activation maps taken from Resnet50 with and without FBSMs on four benchmark datasets. E.可視化 Resnet50から取得したアクティベーションマップを4つのベンチマークデータセット上でFBSMの有無で視覚化します。 0.70
As shown in Fig 5, for each raw image sampled from four datasets, the activation maps at the first to third columns correspond to the third to fifth stages of Resnet50 respectively. 図5に示すように、4つのデータセットからサンプリングされた生画像ごとに、第1列と第3列のアクティベーションマップは、それぞれresnet50の第3段と第5段に対応する。 0.66
We can observe that the network tends to focus on the most salient part without FBSMs and is forced to mine different parts when equipped with FBSMs. ネットワークはFBSMなしで最も有毒な部分に集中し、FBSMが装備されているとき異なった部分を鉱山に強制されることを観察できます。
訳抜け防止モード: ネットワークの傾向を観察できます FBSMを使わずに最も健全な部分に焦点を合わせる FBSMを装着すると、異なる部品を採掘せざるを得ない。
0.73
Taking the bird as an example, without FBSMs, the features at different stages all focus on the swing. 鳥を例にとると、FBSMなしでは、異なるステージにおける特徴はすべてスイングに集中します。 0.70
When there are FBSMs, the features in stage3 focus on the swing, the features in stage4 focus on the head, and the features in stage5 focus on the tail. FBSMがあるとき、段階3の特徴は振動に焦点を合わせ、段階4の特徴は頭部に焦点を合わせ、段階5の特徴は尾に焦点を合わせます。 0.73
The visualization experiments prove the capability of FBSMs for mining multiple different discriminative object parts. 可視化実験は、複数の異なる識別対象部品をマイニングするためのFBSMの機能を証明する。 0.62
V. CONCLUSION V.コンキュレーション 0.76
In this paper, we propose to learn feature boosting, suppression, and diversification for fine-grained visual classification. 本稿では,細粒度視覚分類のための特徴増強,抑制,多様化の学習を提案する。 0.86
Specifically, we introduce two lightweight modules: 具体的には2つの軽量モジュールを紹介します。 0.56
英語(論文から抽出)日本語訳スコア
One is the feature boosting and suppression module which boosts the most salient part of the feature maps to obtain the part-specific feature and suppresses it to explicitly force following stages to mine other potential parts. 1つは機能強化・抑制モジュールで、機能マップの最も突出した部分をブーストし、その部分固有の特徴を取得し、後続の段階を明示的に強制して他の潜在的な部品をマイニングすることを抑制する。 0.61
The other is the feature diversification module which aggregates semantically complementary information from other object parts to each part-specific representation. もうひとつは機能分散モジュールで、他のオブジェクト部分からセマンティックに補完的な情報を各パーツ固有の表現に集約する。 0.63
The synergy between these two modules helps the network to learn more discriminative and diverse feature representations. これら2つのモジュールのシナジーは、ネットワークがより識別的で多様な特徴表現を学ぶのに役立つ。
訳抜け防止モード: これら2つのモジュール間の相乗効果 より差別的で多様な特徴表現を学ぶネットワーク。
0.77
Our method can be trained end-to-end and does not need bounding boxes/part annotations. このメソッドはエンドツーエンドでトレーニングでき、バウンディングボックス/パートアノテーションは不要です。 0.54
The state-of-the-art results are obtained on several benchmark datasets and ablation studies further prove the effectiveness of each proposed module. 最新の結果はいくつかのベンチマークデータセットで得られ、アブレーション研究により各モジュールの有効性がさらに証明された。 0.59
REFERENCES [1] P. Welinder, S. Branson, T. Mita, C. Wah, F. Schroff, S. Belongie, and P. Perona, “Caltech-UCSD Birds 200,” California Institute of Technology, Tech. 参考 [1] P. Welinder, S. Branson, T. Mita, C. Wah, F. Schroff, S. Belongie, P. Perona, “Caltech-UCSD Birds 200”, California Institute of Technology, Tech。 0.73
Rep. CNS-TR-2010-001, 2010. CNS-TR-2010-001、2010年。 0.48
[2] A. Khosla, N. Jayadevaprakash, B. Yao, and L. Fei-Fei, “Novel dataset for fine-grained image categorization,” in First Workshop on FineGrained Visual Categorization, IEEE Conference on Computer Vision and Pattern Recognition, Colorado Springs, CO, June 2011. [2] A. Khosla, N. Jayadevaprakash, B. Yao, L. Fei-Fei, “Novel dataset for fine-grained image categorization” は,2011年6月,コロラドスプリングスで開催されたIEEE Conference on Computer Vision and Pattern Recognition on Colorado Springsの初ワークショップである。 0.86
[3] S. Maji, J. Kannala, E. Rahtu, M. Blaschko, and A. Vedaldi, “Finegrained visual classification of aircraft,” Tech. 3] S. Maji、J. Kannala、E. Rahtu、M. Blaschko、A. Vedaldi、「航空機の粒度のビジュアル分類」技術。 0.82
Rep., 2013. [4] J. Krause, M. Stark, J. Deng, and L. Fei-Fei, “3d object representations for fine-grained categorization,” in 4th International IEEE Workshop on 3D Representation and Recognition (3dRR-13), Sydney, Australia, 2013. 2013年、退社。 J. Krause, M. Stark, J. Deng, L. Fei-Fei, “3d object representations for fine-fine categorization” in 4th International IEEE Workshop on 3D Representation and Recognition, Sydney, Australia, 2013 0.73
[5] X. Li, X. Yin, C. Li, X. Hu, P. Zhang, L. Zhang, L. Wang, H. Hu, L. Dong, F. Wei, Y. Choi, and J. Gao, “Oscar: Objectsemantics aligned pre-training for vision-language tasks,” arXiv preprint arXiv:2004.06165, 2020. 5] X. Li, X. Yin, C. Li, X. Hu, P. Zhang, L. Zhang, L. Wang, H. Hu, L. Dong, F. Wei, Y. Choi, J. Gao, “Oscar: Objectsemanticsalign ed pre-training for vision-language tasks” arXiv:2004.06165, 2020。 0.90
[6] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, “Pyramid scene parsing network,” in CVPR, 2017. H. Zhao, J. Shi, X. Qi, X. Wang, J. Jia, “Pyramid scene parsing network” in CVPR, 2017 0.78
[7] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y] 0.92
Fu, and A. C. Berg, “Ssd: Single shot multibox detector,” Lecture Notes in Computer Science, p. 21–37, 2016. Fu, and A.C. Berg, "Ssd: Single shot multibox detector", Lecture Notes in Computer Science, p. 21–37, 2016 0.90
[8] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jul 2017. 8] T.Y。 Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, S. Belongie, “Feature pyramid network for object detection” 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jul 2017”. 2017年5月1日閲覧。 0.84
[9] N. Zhang, J. Donahue, R. Girshick, and T. Darrell, “Part-based r-cnns for fine-grained category detection,” Lecture Notes in Computer Science, p. 834–849, 2014. N. Zhang, J. Donahue, R. Girshick, T. Darrell, “Part-based r-cnns for fine-fine category detection”, Lecture Notes in Computer Science, pp. 834–849, 2014 0.91
[10] D. Lin, X. Shen, C. Lu, and J. Jia, “Deep lac: Deep localization, alignment and classification for fine-grained recognition,” in 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 10] D. Lin, X. Shen, C. Lu, and J. Jia, "Deep lac: Deep Localization, alignment and classification for fine-grained recognition" 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015 pp。
訳抜け防止モード: [10 ]D. Lin, X. Shen, C. Lu, J. Jia, “Deep lac : Deep Localization, alignment” 2015 IEEE Conference on Computer Vision における「微粒化認識のための分類」 and Pattern Recognition (CVPR ) , 2015 , pp。
0.92
1666–1674. 1666–1674. 0.71
[11] S. Huang, Z. Xu, D. Tao, and Y. Zhang, “Part-stacked cnn for finegrained visual categorization,” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2016. 11] S. Huang, Z. Xu, D. Tao, Y. Zhang, “Part-stacked cnn for finegrained visual categorization”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016年6月 0.88
[12] S. Branson, G. V. Horn, S. Belongie, and P. Perona, “Bird species categorization using pose normalized deep convolutional nets,” 2014. 12] S. Branson, G. V. Horn, S. Belongie, P. Perona, “Bird species categorization using pose normalized Deep Convolutional nets” 2014年。 0.85
[13] J. Fu, H. Zheng, and T. Mei, “Look closer to see better: Recurrent attention convolutional neural network for fine-grained image recognition,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 13] J. Fu、H. Zheng、T. Meiは、2017年のIEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2017 pp.で、"Look more to see better: Recurrent attention convolutional neural network for fine-grained image recognition"と題した講演を行った。 0.79
4476–4484. 4476–4484. 0.71
[14] C. Liu, H. Xie, Z. Zha, L. Ma, L. Yu, and Y. Zhang, “Filtration and distillation: Enhancing region attention for fine-grained visual categorization,” in Proceedings of the AAAI Conference on Artificial Intelligence. 14] C. Liu, H. Xie, Z. Zha, L. Ma, L. Yu, and Y. Zhang, “Filtration and distillation: Enhancing region attention for fine-grained visual categorization” 人工知能に関するAAAI会議の進行。 0.87
AAAI Press, 2020, pp. AAAI Press, 2020, pp。 0.82
11 555–11 562. 11 555–11 562. 0.84
[15] Z. Yang, T. Luo, D. Wang, Z. Hu, J. Gao, and L. Wang, “Learning to navigate for fine-grained classification,” Lecture Notes in Computer Science, p. 438–454, 2018. 15] Z. Yang, T. Luo, D. Wang, Z. Hu, J. Gao, L. Wang, “Learning to navigate for fine-grained classification”, Lecture Notes in Computer Science, p. 438–454, 2018 0.96
[16] L. Zhang, S. Huang, W. Liu, and D. Tao, “Learning a mixture of granularity-specific experts for fine-grained categorization,” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 16] L. Zhang、S. Huang、W. Liu、D. Taoは、2019 IEEE/CVF International Conference on Computer Vision (ICCV)、2019、pp. 2019で、「きめ細かいカテゴリ化のための粒度固有の専門家の混合を学ぶ。 0.70
8330–8339. 8330–8339. 0.71
[17] Y. Ding, Y. Zhou, Y. Zhu, Q. Ye, and J. Jiao, “Selective sparse sampling for fine-grained image recognition,” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. Y.Ding, Y. Zhou, Y. Zhu, Q. Ye, J. Jiao, “Selective sparse sample for fine-fine image recognition” in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019, pp. 0.86
6598–6607. 6598–6607. 0.71
[18] T.-Y. Lin, A. RoyChowdhury, and S. Maji, “Bilinear cnn models for fine-grained visual recognition,” in Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), ser. 18] T.Y。 Lin, A. RoyChowdhury, S. Maji, “Bilinear cnn models for fine-fine visual recognition” in Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV) Ser。 0.79
ICCV ’15. USA: IEEE Computer Society, 2015, p. 1449–1457. ICCV ’15。 USA: IEEE Computer Society, 2015, pp. 1449–1457。 0.84
[19] Y. Gao, O. Beijbom, N. Zhang, and T. Darrell, “Compact bilinear pooling,” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2016. Y. Gao, O. Beijbom, N. Zhang, T. Darrell, “Compact bilinear pooling” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2016年6月
訳抜け防止モード: [19 ] Y. Gao, O. Beijbom, N. Zhang, T. Darrell, “Compact Bilinear pooling, ” 2016 IEEE Conference on Computer Vision” And Pattern Recognition (CVPR ) , Jun 2016 。
0.91
[20] P. Li, J. Xie, Q. Wang, and Z. Gao, “Towards faster training of global covariance pooling networks by iterative matrix square root normalization,” in IEEE Int. P. Li, J. Xie, Q. Wang, Z. Gao, “Towards faster training of global covariance pooling network by repeaterative matrix square root normalization” in IEEE Int。 0.75
Conf. on Computer Vision and Pattern Recognition (CVPR), June 2018. Conf computer vision and pattern recognition (cvpr) 2018年6月号。 0.62
[21] S. Cai, W. Zuo, and L. Zhang, “Higher-order integration of hierarchical convolutional activations for fine-grained visual categorization,” in 2017 IEEE International Conference on Computer Vision (ICCV), 2017, pp. 21] s. cai, w. zuo, l. zhang, “higher-order integration of hierarchical convolutional activations for fine-grained visual categorization” in 2017 ieee international conference on computer vision (iccv), 2017 pp。 0.76
511–520. [22] S. Kong and C. Fowlkes, “Low-rank bilinear pooling for fine-grained classification,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 511–520. s. kong and c. fowlkes, “low-rank bilinear pooling for fine-grained classification” in the proceedings of the ieee conference on computer vision and pattern recognition, 2017 pp. ^ (英語) 0.74
365–374. [23] G. Sun, H. Cholakkal, S. Khan, F. Khan, and L. Shao, “Fine-grained recognition: Accounting for subtle differences between similar classes,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 365–374. G.Sun, H. Cholakkal, S. Khan, F. Khan, L. Shao, "Fine-grained recognition: Accounting for subtle difference between similar classes" とAAAI Conference on Artificial Intelligence, vol. のProceedingsに記されている。 0.77
34, no. 07, 2020, pp. 34、いいえ。 07, 2020, pp。 0.78
12 047–12 054. 12 047–12 054. 0.84
[24] M. Sun, Y. Yuan, F. Zhou, and E. Ding, “Multi-attention multi-class constraint for fine-grained image recognition,” Lecture Notes in Computer Science, p. 834–850, 2018. 24] M. Sun, Y. Yuan, F. Zhou, and E. Ding, "Multi-attention multi-class constraint for fine-grained image recognition", Lecture Notes in Computer Science, p. 834–850, 2018 0.90
[25] P. Zhuang, Y. Wang, and Y. Qiao, “Learning attentive pairwise interaction for fine-grained classification,” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 25] p. zhuang, y. wang, y. qiao, “learning attentive pairwise interaction for fine-grained classification”, aaai conference on artificial intelligence, vol. の議事録。 0.79
34, no. 07, p. 13130–13137, Apr 2020. 34、いいえ。 07,p.13130-13137,Apr 2020。 0.78
[26] W. Luo, X. Yang, X. Mo, Y. Lu, L. S. Davis, and S.-N. Lim, “Cross-x learning for fine-grained visual categorization,” in ICCV, 2019. W. Luo, X. Yang, X. Mo, Y. Lu, L. S. Davis, S.-N. Lim, “Cross-x learning for fine-grained visual categorization” in ICCV, 2019。 0.88
[27] Y. Gao, X. Han, X. Wang, W. Huang, and M. Scott, “Channel interaction networks for fine-grained image categorization.” in AAAI, 2020, pp. 27] Y. Gao, X. Han, X. Wang, W. Huang, M. Scott, “Channel Interaction Network for fine-grained image categorization.” (AAAI, 2020, pp.)。 0.87
10 818–10 825. 10 818–10 825. 0.84
[28] X. Wang, R. Girshick, A. Gupta, and K. He, “Non-local neural networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. [28] x. wang, r. girshick, a. gupta, k. he, “non-local neural networks” in the proceedings of the ieee conference on computer vision and pattern recognition, 2018, pp。 0.84
7794–7803. 7794–7803. 0.71
and [29] X. Chen, C. Fu, Y. Zhao, F. Zheng, Y. Yang, “Salience-guided cascaded suppression network for person reidentification,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. X. Chen, C. Fu, Y. Zhao, F. Zheng, Y. Yang, “Salience-guided cascadedpression network for person reidentification” in Proceeds of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 0.86
3300–3310. 3300–3310. 0.71
[30] Y. Sun, L. Zheng, Y. Yang, Q. Tian, and S. Wang, “Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline),” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. [30] Y。 Sun, L. Zheng, Y. Yang, Q. Tian, S. Wang, “Beyond part models: person search with refined part pooling (and a strong convolutional baseline)” in Proceedings of the European Conference on Computer Vision (ECCV) 2018, pp。 0.78
480–496. [31] A. F. Agarap, “Deep learning using rectified linear units (relu),” arXiv preprint arXiv:1803.08375, 2018. 480–496. A.F. Agarap, “Deep Learning using rectified linear units (relu)” arXiv preprint arXiv:1803.08375, 2018。 0.77
[32] H. Zheng, J. Fu, T. Mei, and J. Luo, “Learning multi-attention convolutional neural network for fine-grained image recognition,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 32] h. zheng, j. fu, t. mei, j. luo, “learning multi-attention convolutional neural network for fine-grained image recognition” in the proceedings of the ieee international conference on computer vision, 2017 pp. (英語) 0.86
5209–5217. 5209–5217. 0.71
[33] K. He, X. Zhang, S. Ren, and J. [33]K.He,X.Zhang,S. Ren,J. 0.80
Sun, “Deep residual learning for image recognition,” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2016. Sun, “Deep Residial Learning for Image Recognition” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2016年6月 0.77
[34] Y. Chen, Y. Bai, W. Zhang, and T. Mei, “Destruction and construction learning for fine-grained image recognition,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 34] Y. Chen, Y. Bai, W. Zhang, T. Mei, "Destruction and Construction Learning for fine-grained Image Recognition" in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp。 0.87
5157–5166. 5157–5166. 0.71
[35] H. Zheng, J. Fu, Z.-J. 35] H. Zheng、J. Fu、Z.-J。 0.85
Zha, and J. Luo, “Learning deep bilinear transformation for fine-grained image representation,” in Advances in Neural Information Processing Systems, 2019, pp. Zha, and J. Luo, “Learning Deep Bilinear transformation for fine-fine image representation” in Advances in Neural Information Processing Systems, 2019, pp。 0.87
4277–4286. 4277–4286. 0.71
[36] M. Zhou, Y. Bai, W. Zhang, T. Zhao, and T. Mei, “Look-into-object: Self-supervised structure modeling for object recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. [36] M. Zhou, Y. Bai, W. Zhang, T. Zhao, T. Mei, "Look-in-to-object: Self-supervised Structure Model for Object Recognition" は、IEEE/CVF Conference on Computer Vision and Pattern Recognition (2020, pp.) の議題である。 0.78
11 774–11 783. 11 774–11 783. 0.84
[37] J. Deng, W. Dong, R. Socher, L.-J. [37] J. Deng, W. Dong, R. Socher, L.-J. 0.88
Li, K. Li, and L. Fei-Fei, “ImageNet: A Large-Scale Hierarchical Image Database,” in CVPR09, 2009. Li, K. Li, and L. Fei-Fei, “ImageNet: A Large-Scale Hierarchical Image Database” in CVPR09, 2009 0.95
[38] I. Loshchilov and F. Hutter, “Sgdr: Stochastic gradient descent with warm restarts,” arXiv preprint arXiv:1608.03983, 2016. 38] I. Loshchilov and F. Hutter, “Sgdr: Stochastic gradient down with warm restarts” arXiv preprint arXiv:1608.03983, 2016 0.92
[39] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014. 39] K. Simonyan and A. Zisserman, “Very Deep Convolutional Network for Large-Scale Image Recognition” arXiv preprint arXiv:1409.1556, 2014 0.94
[40] C.-Y. Wu, R. Manmatha, A. J. Smola, and P. Krahenbuhl, “Sampling matters in deep embedding learning,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 40] C.-Y。 Wu, R. Manmatha, A. J. Smola, P. Krahenbuhl, “Sampling matters in deep embedded learning” in Proceedings of the IEEE International Conference on Computer Vision, 2017 pp。 0.83
2840–2848. 2840–2848. 0.71
J. Song, R. Ji, J。 歌、R。 ジ 0.58
               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。