論文の概要、ライセンス

# (参考訳) Sill-Net: 分離イルミネーション表現による特徴増強 [全文訳有]

Sill-Net: Feature Augmentation with Separated Illumination Representation ( http://arxiv.org/abs/2102.03539v1 )

ライセンス: CC BY 4.0
Haipeng Zhang, Zhong Cao, Ziang Yan, Changshui Zhang(参考訳) 視覚物体認識タスクでは、照明の変動が物体の外観に異なる変化をもたらし、ディープニューラルネットワークベースの認識モデルを混乱させる可能性がある。 特に稀な照明条件では、十分なトレーニングサンプルの収集には時間と費用がかかる可能性がある。 そこで本研究では,分離イルミネーションネットワーク(Sill-Net)と呼ばれるニューラルネットワークアーキテクチャを提案する。 Sill-Netは、画像から照明機能を分離することを学び、トレーニング中に、これらの照明機能を特徴空間で分離したトレーニングサンプルを拡張する。 実験結果から,複数のオブジェクト分類ベンチマークにおいて,本手法が最新の手法を上回っていることが示された。

For visual object recognition tasks, the illumination variations can cause distinct changes in object appearance and thus confuse the deep neural network based recognition models. Especially for some rare illumination conditions, collecting sufficient training samples could be time-consuming and expensive. To solve this problem, in this paper we propose a novel neural network architecture called Separating-Illuminat ion Network (Sill-Net). Sill-Net learns to separate illumination features from images, and then during training we augment training samples with these separated illumination features in the feature space. Experimental results demonstrate that our approach outperforms current state-of-the-art methods in several object classification benchmarks.
公開日: Sat, 6 Feb 2021 09:00:10 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Sill-Net: Feature Augmentation with Separated Illumination Representation Sill-Net: 分離イルミネーション表現による特徴増強 0.68
Haipeng Zhang 1 Zhong Cao 1 Ziang Yan 1 Changshui Zhang 1 Haipeng Zhang 1 Zhong Cao 1 Ziang Yan 1 Changshui Zhang 1。 0.88
1 2 0 2 b e F 6 1 2 0 2 b e F 6 0.85
] V C . ] V C。 0.79
s c [ 1 v 9 3 5 3 0 sc [ 1 v 9 3 5 3 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Abstract For visual object recognition tasks, the illumination variations can cause distinct changes in object appearance and thus confuse the deep neural network based recognition models. 概要 視覚物体認識タスクでは、照明の変動が物体の外観に異なる変化をもたらし、ディープニューラルネットワークベースの認識モデルを混乱させる可能性がある。 0.56
Especially for some rare illumination conditions, collecting sufficient training samples could be time-consuming and expensive. 特に稀な照明条件では、十分なトレーニングサンプルの収集には時間と費用がかかる可能性がある。 0.67
To solve this problem, in this paper we propose a novel neural network architecture called Separating-Illuminat ion Network (Sill-Net). そこで本研究では,分離イルミネーションネットワーク(Sill-Net)と呼ばれるニューラルネットワークアーキテクチャを提案する。 0.79
Sill-Net learns to separate illumination features from images, and then during training we augment training samples with these separated illumination features in the feature space. Sill-Netは、画像から照明機能を分離することを学び、トレーニング中に、これらの照明機能を特徴空間で分離したトレーニングサンプルを拡張する。 0.68
Experimental results demonstrate that our approach outperforms current state-of-the-art methods in several object classification benchmarks. 実験結果から,複数のオブジェクト分類ベンチマークにおいて,本手法が最新の手法を上回っていることが示された。 0.43
1. Introduction Although deep neural network based models have achieved remarkable successes in various computer vision tasks (Krizhevsky et al., 2017; Simonyan & Zisserman, 2014; Russakovsky et al., 2015; He et al., 2016), vast amounts of annotated training data are usually required for a superior performance in many visual tasks. 1. 導入 ディープニューラルネットワークベースのモデルは、様々なコンピュータビジョンタスク(Krizhevsky et al., 2017; Simonyan & Zisserman, 2014; Russakovsky et al., 2015; He et al., 2016)で顕著な成功を収めているが、多くの視覚タスクにおいて、多くのアノテートトレーニングデータが優れたパフォーマンスのために要求される。 0.84
For the object classification task, the requirement for a large training set could be partially explained by the fact that many latent variables (e.g., positions/postures of the objects, the brightness/contrast of the image, and the illumination conditions) can cause significant changes in the appearance of objects. オブジェクト分類タスクでは、大きなトレーニングセットの要件は、多くの潜在変数(例えば、オブジェクトの位置/位置、画像の明るさ/コントラスト、および照明条件)がオブジェクトの外観に大きな変化を引き起こす可能性があるという事実によって部分的に説明することができる。 0.82
Although collecting a large training set to cover all possible values of these latent variables could improve the recognition performance, for rare latent values such as extreme illumination conditions it could be prohibitively time-consuming and expensive to collect enough training images. これらの潜在変数のすべての可能な値をカバーするための大きなトレーニングセットの収集は、認識性能を向上させることができるが、極端な照明条件のような希少な潜在値の場合、十分なトレーニング画像を集めるのに非常に時間がかかり、費用がかかる。 0.57
In this paper we restrict our attention to illumination conditions. 本稿では,照明条件への注意を限定する。 0.82
For many real-world computer vision applications (e.g., autonomous driving and video surveillance) it is es- 多くの現実世界のコンピュータビジョンアプリケーション(自動運転やビデオ監視など)にとって、それはesです。 0.69
1Department Beijing, China. 1Department 北京、中国。 0.82
<zcs@mail.tsinghua.ed u.cn>. <zcs@mail.tsinghua.ed u.cn> 0.66
of Automation, Tsinghua University, Correspondence to: Changshui Zhang 自動化、清華大学、対応:Changshui Zhang。 0.68
Copyright 2021 by the author(s). 著作者による著作権2021。 0.53
Figure 1. Illustration of the key idea of our approach. 図1。 私たちのアプローチの重要なアイデアのイラストレーション。 0.70
The semantic and illumination representation are separated from the training image (mandatory straight). 意味的および照明表現は訓練イメージ(必須のまっすぐ)から分離されます。 0.77
The illumination representation is used to augment the support sample (deer crossing). 照明表現は、サポートサンプル(鹿交叉)を増強するために使用される。 0.74
sential to recognize the objects under extreme illumination conditions such as backlighting, overexposure and other complicated cast shadows. バックライト、過剰露出、その他の複雑なキャストシャドウなどの極端な照明条件下で物体を認識するセンシアル。 0.68
Thus, we reckon it is desirable to improve recognition models’ generalization ability under different illumination conditions in order to deploy robust models in real-world applications. したがって、実世界のアプリケーションに堅牢なモデルをデプロイするために、異なる照明条件下での認識モデルの一般化能力を向上させることが望ましい。 0.76
We propose a novel neural network architecture named Separating-Illuminat ion Network (Sill-Net) to deal with such problems. このような問題に対処するために,分離イルミネーションネットワーク (Sill-Net) という新しいニューラルネットワークアーキテクチャを提案する。 0.66
The key idea of our approach is to separate the illumination features from the semantic features in images, and then augment the separated illumination features onto other training samples (hereinafter we name these samples as “support samples”) to construct a more extensive feature set for subsequent training (see Figure 1). 提案手法の主な考え方は、画像中の意味的特徴から照明特徴を分離し、分離された照明特徴を他のトレーニングサンプル(以下、これらのサンプルを「サポートサンプル」と呼ぶ)に拡張して、その後のトレーニングのためのより広範な機能セットを構築することである(図1参照)。 0.78
Specifically, our approach consists of three steps. 具体的には、3つのステップから成り立っています。 0.52
In the first step, we separate the illumination and semantic features for all images in the existing dataset via a disentanglement method, and use the separated illumination features to build an illumination repository. 最初のステップでは、既存のデータセット内のすべての画像の照明機能とセマンティクス機能をdisentanglementメソッドで分離し、分離された照明機能を使用して照明リポジトリを構築します。 0.78
Then, we transplant the illumination repository to the support samples to construct an augmented training set and use it to train a recognition model. 次に,照明用レポジトリを支援サンプルに移植し,拡張トレーニングセットを構築し,認識モデルのトレーニングに使用する。 0.74
Finally, test images are fed into the trained model for classification. 最後に、テストイメージをトレーニングされたモデルに入力して分類する。 0.66
Our proposed approach could improve the robustness to illumination conditions since the support samples used for training are blended with many different illumination features. 提案手法は,多くの異なる照明特徴を混合することにより,照明条件に対するロバスト性を向上させることができる。 0.77
Thus after training, the obtained model would naturally generalize better under various illumination conditions. したがって、訓練後、得られたモデルは様々な照明条件下で自然により一般化する。 0.63
Our contributions are summarized as follows: 私たちの貢献は以下の通り要約される。 0.58
英語(論文から抽出)日本語訳スコア
Sill-Net: Feature Augmentation with Separated Illumination Representation Sill-Net: 分離イルミネーション表現による特徴増強 0.68
Figure 2. Illustration of the architecture of Sill-Net. 図2。 Sill-Netのアーキテクチャのイラストレーション。 0.76
Sill-Net consists of three main modules: the separation module, the matching and reconstruction module, and the augmentation module. Sill-Netは、分離モジュール、マッチングと再構築モジュール、拡張モジュールの3つの主要なモジュールで構成されている。
訳抜け防止モード: Sill - Netは3つの主要なモジュールで構成されています。 一致および再建モジュールおよび増強モジュール。
0.87
The semantic and illumination features are separated by the exchange mechanism in the first module. セマンティクスと照明機能は、第1モジュールの交換機構によって分離される。 0.85
The semantic features are constraint to be informative by the matching and reconstruction module. セマンティクス機能は、マッチングおよびリコンストラクションモジュールによって情報を得るための制約である。 0.72
The illumination features are stored into a repository. 照明機能はリポジトリに保存されます。 0.73
In the augmentation module, we use the illumination features in the repository to augment the support samples (e.g., template images) for training a generalizable model. augmentationモジュールでは、リポジトリの照明機能を使用して、一般化可能なモデルをトレーニングするためにサポートサンプル(テンプレートイメージなど)を増強します。 0.81
1) We develop an algorithm to separate the illumination features from semantic features for natural images. 1)自然画像の意味的特徴から照明特徴を分離するアルゴリズムを開発した。 0.80
The separated illumination features can be used to construct an illumination feature repository. 分離された照明機能は、照明機能リポジトリを構築するために使用できる。 0.70
2) We propose an augmentation method to blend support samples with the illumination feature repository, which could effortlessly enhance the illumination variety of the training set and thus improve the robustness to illumination conditions of the trained deep model. 2)トレーニングセットの照明多様性を簡便に向上させ、トレーニングされた深層モデルの照明条件への堅牢性を向上させることができる照明機能リポジトリとサポートサンプルをブレンドする増強方法を提案する。 0.87
3) We evaluate Sill-Net on several object classification benchmarks, i.e., two traffic datasets (GTSRB and TT100K) and three logo datasets (Belgalogos, FlickrLogos32, and TopLogo-10). 3)Sill-Netは2つのトラフィックデータセット(GTSRB,TT100K)と3つのロゴデータセット(Belgalogos,FlickrLo gos32,TopLogo-10)で評価する。 0.77
Sill-Net outperforms the state-of-the-art (SOTA) methods by a large margin. Sill-Netは最先端のSOTA(State-of-the-ar t)メソッドを大きなマージンで上回る。 0.48
2. Proposed Method In this section, we introduce our Separating-Illuminat ion Network (Sill-Net). 2. 提案手法では,分離イルミネーションネットワーク(Sill-Net)について紹介する。 0.80
Sill-Net first learns to separate the semantic and illumination features of training images. Sill-Netはまず、トレーニングイメージのセマンティクスと照明機能を分離することを学びます。 0.62
Then the illumination features are blended with the semantic feature of each support sample to construct an augmented feature set. 次に、照明特徴と各サポートサンプルの意味的特徴とをブレンドして拡張特徴集合を構築する。 0.77
Finally, we train again on the illuminationaugmente d feature set for classification. 最後に、分類のための照明指定特徴集合を再び訓練する。 0.72
The architecture of our method is illustrated in Figure 2. この手法のアーキテクチャを図2に示します。 0.65
Sill-Net mainly consists of the following modules: the separation module, the matching and reconstruction module, and the augmentation module. sill-netは主に以下のモジュールで構成されている:分離モジュール、マッチングおよび再構成モジュール、拡張モジュール。 0.88
In detail, we implement the method in three steps: 1) The separation module is trained to separate the features 1) 分離モジュールは、特徴を分離するために訓練されています。
訳抜け防止モード: 詳細は3つのステップで実装する。 1 ) 分離モジュールは特徴を分離するように訓練される
0.77
into semantic parts and illumination parts for all training images. 全ての訓練画像の 意味的な部分と照明部分に 0.77
The matching and reconstruction module promotes the learning of better semantic feature representation. マッチングと再構成モジュールは、より良いセマンティックな特徴表現の学習を促進する。 0.69
The learned illumination features are stored into an illumination repository. 学習した照明機能は照明リポジトリに格納される。 0.76
The details are illustrated in Section 2.1. 詳細は2.1節で説明します。 0.62
2) The semantic feature of each support image is combined with all illumination features in the repository to build an augmented feature set to train the classifier. 2) 各サポートイメージのセマンティック機能は,リポジトリ内のすべての照明機能と組み合わせて,分類器を訓練するための拡張機能セットを構築する。 0.84
The augmentation module is illustrated in Section 2.2. 増分モジュールはセクション 2.2 で示されます。 0.74
3) Test images are input into the well-trained model to be predicted in an end-to-end manner, referring to Section 2.3. 3) よく訓練されたモデルにテスト画像を入力し、第2.3節を参照してエンドツーエンドで予測する。 0.69
This approach assumes that the illumination distribution learned from training data is similar to that of test data. このアプローチは、トレーニングデータから得られた照明分布がテストデータと似ていると仮定する。 0.85
Thus the illumination features can be used as feature augmentation for sufficient training. したがって、照明機能は十分な訓練のための特徴増強として使用できる。 0.66
We can choose different support samples in different visual tasks. 異なるビジュアルタスクで異なるサポートサンプルを選択できます。 0.73
For instance, in conventional classification tasks, we use the real training images as support samples; in one-shot classification tasks, we construct the support set with template images (i.e., graphic symbols visually and abstractly representing semantic information). 例えば、従来の分類タスクでは、実際のトレーニングイメージをサポートサンプルとして使用し、ワンショット分類タスクでは、テンプレートイメージ(視覚的および抽象的に意味情報を表すグラフィックシンボル)でサポートセットを構築します。 0.85
2.1. Separate semantic and illumination features Let X = {(xi, yi, ti)}N i=1 represent the labeled dataset of training classes with N images, where xi denotes the i-th training image, yi is the one-hot label, and ti denotes the corresponding template image (or any image of the object without much deformation). 2.1. X = {(xi, yi, ti)N i=1 はトレーニングクラスのラベル付きデータセットを N 画像で表現し、xi は i 番目のトレーニングイメージを表し、yi は 1 ホットラベルであり、ti は対応するテンプレートイメージ(あるいはあまり変形しないオブジェクトの任意の画像)を表す。 0.72
A feature extractor denoted by E(z|x) learns the separated e(z|x) で表される特徴抽出器は分離を学習する 0.72
Exchange MechanismSeparation ModuleMatching and Reconstruction ModuleIllumination RepositoryAugmentati on ModuleClassifierReco nstructorMatchingTem platesSupport samplesExtractorFeat ures…Augmented featuresSpatial TransformerSeparator TemplatesTraining images 交換メカニズム分離モジュールマーチングと再構成モジュール照明リポジトリ拡張モジュールクラシファイア再構成MatchingTemplatesサポートサンプルExtractorFeatures... Augmented featuresSpatial TransformerSeparator Templatesトレーニングイメージ 0.44
英語(論文から抽出)日本語訳スコア
Sill-Net: Feature Augmentation with Separated Illumination Representation Sill-Net: 分離イルミネーション表現による特徴増強 0.68
features z from images x, where z can be split along channels: z = [zsem, zillu]. 画像 x から z を特徴とし、z はチャネルに沿って分割できる: z = [zsem, zillu]。 0.80
Here, zsem is called the semantic feature, which represents the consistent information of the same category, while zillu is called the illumination feature. ここで、zsemは意味的特徴と呼ばれ、これは同じカテゴリの一貫性のある情報を表し、zilluは照明特徴と呼ばれる。 0.79
Here we specify what illumination represents in our paper. ここでは、私たちの論文で照明が何を表しているかを指定します。 0.43
The narrow meaning of illumination is one of the environmental impacts which cause the appearance changes but no label changes. 照明の狭義の意味は、外観変化を引き起こす環境影響の1つであるが、ラベル変更はない。 0.76
We call the features related to all the environmental impacts but are not category-specific as illumination features. 我々は全ての環境影響に関する特徴と呼ぶが、照明の特徴としてカテゴリー固有のものではない。 0.66
Technically, we divide the object feature into different channels, one half determining the category label defined as the semantic feature, and the other half unrelated to the category label defined as the illumination feature. 技術的には、対象特徴を異なるチャネルに分割し、一方は意味的特徴として定義されたカテゴリラベルを決定し、もう一方は照明特徴として定義されたカテゴリラベルとは無関係である。 0.72
Thus, the following three conditions should be satisfied: 1) The semantic feature is informative to reconstruct the corresponding template image. したがって、以下の3つの条件を満たすべきである: 1) セマンティックな特徴は、対応するテンプレートイメージを再構築するのに役立ちます。 0.67
2) The semantic feature can predict the label while the illumination feature can not. 2) 照明機能はできないが, 意味的特徴はラベルを予測できる。 0.81
3) The illumination feature should not contain the semantic information. 3)照明機能は、意味情報を含むべきではない。 0.80
To satisfy the above conditions, we build the following modules. 上記の条件を満たすため、以下のモジュールを構築します。 0.79
Matching and reconstruction module. マッチングと再構築モジュール。 0.84
We first construct a matching module (as shown in Figure 2) to make the semantic feature informative as required by the first condition. まず、マッチングモジュール(図2に示すように)を構築して、最初の条件で必要な意味的特徴を情報化します。
訳抜け防止モード: まず、マッチングモジュール(図2に示すように)を構築します。 最初の条件で必要な意味的特徴を情報化します
0.80
Since we design the extractor without downsampling operations to maintain the spatial information of the object, the semantic feature of one real image should be similar to that of its corresponding template image. オブジェクトの空間情報を維持するために,ダウンサンプリング操作を伴わない抽出器を設計するので,実画像の意味的特徴は対応するテンプレート画像と類似するはずだ。 0.86
However, the real image is usually deformed compared to the regular template image. しかし、通常、実際の画像は通常のテンプレート画像と比較して変形する。 0.77
Therefore, we use a spatial transformer (Jaderberg et al., 2015) T to correct the deformation. したがって、変形を補正するために空間変換器(Jaderberg et al., 2015)Tを用いる。 0.82
We constrain the tent with the template feature zsem(i)|ti by the mean square error (MSE), that is: テンプレートの特徴であるzsem(i)|tiを平均二乗誤差(MSE)で制約する。
訳抜け防止モード: 我々は平均二乗誤差 (MSE ) によりテンプレート特徴 zsem(i)|ti でテントを拘束する。 それは...
0.73
transformed semantic feature T (cid:0)zsem(i)|xi 変換意味的特徴 t (cid:0)zsem(i)|xi 0.77
(cid:1) to be consis- (cid:0)T (cid:0)zsem(i)|xi (cid:1) (cid:0)T (cid:0)zsem(i)|xi 0.69
(cid:1) − zsem(i)|ti (cid:1) − zsem(i)|ti 0.90
(cid:1)2 . (cid:1)2 . 0.85
(1) Lmatch = (1) Lmatch = 0.85
1 N N(cid:88) 1N N(cid:88) 0.81
i=1 ti. Since the template images are composed of primary colors within the range of [0, 1], binary cross-entropy (BCE) loss is sufficiently efficient for the retrieval (Kim et al., 2019). i=1 ティ テンプレート画像は[0, 1]の範囲内の一次色で構成されているため、バイナリクロスエントロピー(BCE)損失は検索に十分効率的である(Kim et al., 2019)。 0.58
So far, the semantic feature is constrained to be consistent with the template feature and informative enough to be reconstructed to its template image. これまでのところ、セマンティック機能はテンプレート機能と整合性に制約されており、テンプレートイメージに再構築するのに十分な情報を提供する。 0.71
Exchange mechanism. To ensure that the semantic feature can predict the label while the illumination feature can not, we utilize a feature exchange mechanism enlightened by (Xiao et al., 2018) to separate the feature. 交換機構。 照明機能ができない場合、意味的特徴がラベルを予測できることを保証するため、(xiao等、2018年)で明記された特徴交換機構を用いて特徴を分離する。 0.69
As shown in Figure 3, the semantic feature zsem(i) of one image xi is blended with the illumination feature zillu(j) of another image xj to form a new one through feature mixup (Zhang et al., 2017): 図3に示すように、ある画像xiの意味的特徴zsem(i)と、別の画像xjの照明特徴zillu(j)とをブレンドして、特徴ミックスアップ(zhang et al., 2017)により新しい画像を形成する。 0.77
z = rzsem(i) + (1 − r)zillu(j), z = rzsem(i) + (1 − r)zillu(j), 0.80
(3) where the proportion r ∈ [0, 1]. (3) 比 r ∈ [0, 1] である。 0.67
As required by the condition, the blended feature z retains the same label yi as the semantic feature. 条件によって要求されるように、ブレンドされた特徴 z は意味的特徴と同じラベル yi を保持する。 0.61
Hence through training, the semantic feature would learn information to predict the label while the illumination feature would not. したがって、トレーニングを通じて、セマンティック機能はラベルを予測するために情報を学び、照明機能はそうしない。
訳抜け防止モード: それゆえ 訓練を通して 意味的特徴は情報を学習し 照明機能がない場合、ラベルを予測します。
0.76
Figure 3. Illustration of the exchange mechanism. 図3。 交換機構の図表化。 0.68
The semantic and illumination features are exchanged between random paired images with labels yi and yj. 意味的および照明的特徴は、ラベルyiとyjのランダムなペア画像間で交換される。 0.64
Then we obtain cross combined features labeled the same as the images corresponding to the semantic features. そして、その意味的特徴に対応する画像と同じラベルを付けたクロスコンビネーション特徴を得る。 0.78
These features are then classified as the specified labels. これらの特徴は、指定されたラベルに分類される。 0.62
We implement the exchange process for random pairs of images, building a new exchanged feature set: ランダムな画像ペアの交換プロセスを実装し、新しい交換機能セットを構築します。 0.71
Zex =(cid:8)rzsem(i) + (1 − r)zillu(j), yi Zex =(cid:8)rzsem(i) + (1 − r)zillu(j), yi 0.89
(cid:12)(cid:12) i, j = 1,··· , N(cid:9) . (cid:12)(cid:12) i, j = 1,···· , N(cid:9) 。 0.86
(4) Besides, we design a reconstructor R(t|T (zsem)) (as shown in Figure 2) to retrieve the template image t from the semantic feature zsem to ensure that it is informative enough. (4) さらに、再構成器 R(t|T (zsem)) を図2に示すように設計し、意味的特徴 zsem からテンプレート画像 t を取り出し、十分に有益であることを確認する。 0.81
We constrain the reconstructed template image ˆti by binary cross-entropy (BCE) loss: バイナリクロスエントロピー (BCE) 損失による再構成テンプレートイメージ 「ti」を制約します。 0.66
Lrecon = 1 N Lrecon = 1N 0.82
N(cid:88) |ti|(cid:88) N(cid:88) |ti|(cid:88) 0.75
−tij log ˆtij − (1 − tij) log(cid:0)1 − ˆtij -tij log >tij − (1 − tij) log(cid:0)1 − >tij 0.82
(cid:1) , i=1 (cid:1) i=1 0.67
j=1 (2) where tij represents the j-th pixel of the i-th template image j=1 (2) ここで tij は i-th テンプレート画像の j-th ピクセルを表します。 0.68
The mixed features are then input into a classifier P for label prediction. 混合特徴は、ラベル予測のために分類器Pに入力される。 0.75
We denote the distribution of the predicted label y given the mixed feature z by P (y|z). 混合特徴 z が p (y|z) で与えられる予測ラベル y の分布を表す。 0.72
Then we minimize the cross-entropy loss: 次に、クロスエントロピー損失を最小限にする。 0.47
Nex(cid:88) Nex (複数形 Nexs) 0.53
M(cid:88) i=1 M(cid:88) i=1 0.71
c=1 Lclass = − 1 Nex c=1 Lclass = − 1 Nex 0.72
yic log P (yic|zi ∈ Zex) , yic log P (yic|zi ∈ Zex) , 0.98
(5) where Nex = |Zex| denotes the number of recombined features in the augmented feature set, M represents the class number of all images for training and test, and yic is the c-th element of the one-hot label yi. (5) Nex = |Zex| は拡張された特徴集合における再結合された特徴の数を表し、M はトレーニングとテストのためのすべての画像のクラス数を表し、yic は1ホットラベル yi の c 番目の要素である。 0.77
Cross combinationClassifie r…ExtractorLabelImageF eature Cross combinationClassifie r...ExtractorLabelIm ageFeature 0.44
英語(論文から抽出)日本語訳スコア
Sill-Net: Feature Augmentation with Separated Illumination Representation Sill-Net: 分離イルミネーション表現による特徴増強 0.68
The semantic feature retains the information to predict the label after training on the exchanged feature set. 意味的特徴は、交換された特徴セットのトレーニング後にラベルを予測する情報を保持する。 0.70
Besides, the semantic information in the illumination feature would be reduced, because otherwise, it would impair the predicion when it is blended with the other semantic features. さらに、照明機能のセマンティック情報は、それ以外の場合は、他のセマンティック機能とブレンドされたときに述語が損なわれるため、減少します。 0.67
Constraints on illumination features. As required by the third condition, it is essential to impose additional constraints on illumination features to reduce the semantic information. 照明特性の制約。 第3の条件で要求されるように、セマンティック情報を減らすために照明機能に追加の制約を加えることが不可欠である。 0.69
However, it is difficult to find suitable restrictions since the generally used datasets have no illumination labels. しかし、一般的に使用されるデータセットには照明ラベルがないため、適切な制限を見つけるのは難しい。
訳抜け防止モード: しかし 難しいのは 適当な制限を見つける 一般的に使用されるデータセットには照明ラベルがない。
0.76
Enlightened by the disentanglement metric proposed in (Suter et al., 2019), we design a constraint on illumination features by negative Post Interventional Disagreement (PIDA). Suter et al., 2019) で提案された非エンタングルメントメトリックによって啓発され、負のポスト・インターベンショナル・ディグリーメント(PIDA)による照明機能に関する制約を設計します。 0.68
Given a subset Xc = {(xci, yc)}Nc i=1 including Nc images of the same label yc, we write the loss as follows: 同じラベルycのNcイメージを含む部分集合 Xc = {(xci, yc)}Nc i=1 が与えられたとき、損失を次のように書く。 0.79
Lillu = −P IDA Lillu = −P IDA 0.98
= − M(cid:88) = −M(cid:88) 0.88
Nc(cid:88) nc(cid:88) 0.66
D (E (zillu|xc,yc) , zillu|xci,yc) , D (E (zillu|xc,yc) , zillu|xci,yc) , 0.93
(6) c=1 i=1 (6) c=1 i=1 0.68
here, D is a proper distance function (e.g., (cid:96)2 -norm), zillu|xci,yc is the illumination feature of image xci with the same label yc, E is the expectation, and Nc is the number of images in class c. According to Eq. ここで、D は適切な距離関数 (例えば (cid:96)2 -norm) であり、zillu|xci,yc は同じラベル yc を持つ画像 xci の照明機能であり、E は期待値であり、Nc はクラス c の画像の数である。 0.83
(6), PIDA quantifies the distances between the illumination feature of each same-labeled image zillu|xci,yc and their expectation E (zillu|xc,yc ) when the illumination conditions are changed. (6)PIDAは、各同一ラベル画像 zillu|xci,yc の照明特徴と照明条件が変更されたときに期待される E (zillu|xc,yc ) との距離を定量化する。 0.72
In the subset Xc, the semantic information of each image is similar while the illumination information is different. サブセットXcでは、照明情報が異なる間に各画像の意味情報が類似している。 0.74
Suppose an undesirable situation that the illumination features capture much semantic information rather than illumination information. 照明特徴が照明情報よりも多くの意味情報をキャプチャする、望ましくない状況を想定しよう。 0.67
The expectation would strengthen the common semantic component and weaken the distinct illumination components, and thus PIDA would be small. 期待は共通の意味的なコンポーネントを強化し、明確な照明コンポーネントを弱め、したがってPIDAは小さいでしょう。 0.69
It means that the smaller PIDA is, the more semantic information the illumination feature captures compared to illumination information. つまり、PIDAが小さくなればなるほど、照明機能は照明情報よりも意味情報を取り込むことになる。 0.78
By maximizing PIDA (i.e., minimizing Lillu), we can effectively reduce the common semantic information remaining in the illumination features. PIDAの最大化(すなわちLilluの最小化)により、照明特徴に含まれる共通意味情報を効果的に削減できる。 0.76
In summary, the overall loss function in the training phase can be written as: 要約すると、トレーニングフェーズの全体的な損失関数は次のように記述できます。 0.65
L = Lmatch + Lrecon + Lclass + Lillu. L = Lmatch + Lrecon + Lclass + Lillu。 0.84
(7) Through the above training, the model learns to split the features into semantic and illumination features. (7) 上記のトレーニングを通じて、モデルは、機能をセマンティックおよび照明機能に分割することを学ぶ。 0.78
2.2. Augment samples by illumination repository 2.2. 照明レポジトリによる拡張サンプル 0.76
After the first training step, the illumination feature of each image can be separated. 第1の訓練ステップの後、各画像の照明特徴を分離することができる。 0.75
These features are collected to これらの特徴は収集される 0.70
construct an illumination repository, expressed as follows: 以下に示すように照明用レポジトリを構築する 0.77
Zillu =(cid:8)zillu(i) Zillu =(cid:8)zillu(i) 0.98
(cid:9)N i=1 (cid:9)N i=1 0.71
. (8) N(cid:88) . (8) N(cid:88) 0.85
M(cid:88) i=1 M(cid:88) i=1 0.71
c=1 i, yt i , tt c=1 I, yt i , tt 0.74
i)}N t We then use the illumination features to augment the support samples by a multiple of the repository size N. Consider X t = {(xt i=1 with N t images of label yt, here we assume that the template images tt i constitute the support set. i)}N t X t = {(xt i=1) with N t image of label yt, ここではテンプレートイメージ tt i がサポートセットを構成すると仮定する。
訳抜け防止モード: i)}N t xt = { (xt i=1 with n t images of label yt, and consider xt = { (xt i=1 with n t images of label yt, and consider xt = { (xt i=1 with n t images of label yt)。 ここで私たちは テンプレート画像ttiはサポートセットを構成する。
0.67
We combine all illumination features in the repository with the semantic feature of each template zsem(i)|tt by feature Zaug =(cid:8)rzsem mixup, building an augmented feature set as follows: リポジトリ内のすべての照明機能と、各テンプレート zsem(i)|tt の feature zaug =(cid:8)rzsem mixup で意味的な特徴を組み合わせることで、以下の機能セットを構築する。 0.84
(cid:12)(cid:12) i = 1,··· , N t(cid:9) , (cid:12)(cid:12) i = 1,··· , N t(cid:9) , 0.93
(i) + (1 − r)zillu(j), yt (i) + (1 − r)zillu(j), yt 0.80
t i i where zillu(j) ∈ Zillu. t 私は 私は ここで zillu(j) ∈ Zillu。 0.68
We train the model again on the feature set Zaug. Zaugの機能セットで、再びモデルをトレーニングします。 0.71
So, if a few support samples are provided, the model can be trained on the augmented feature set blended with real illumination features, making it generalizable to test data. したがって、いくつかのサポートサンプルが提供されると、モデルは実際の照明機能とブレンドされた拡張機能セットでトレーニングされ、データのテストが一般化されます。 0.66
The classification loss of augmented training is expressed as follows: 強化訓練の分類損失は次のとおりである。 0.74
(9) Laug = − 1 N (9) Laug = − 1 N 0.85
yic log P (yic|zi ∈ Zaug) , yic log P (yic|zi ∈ Zaug) , 0.98
(10) where N = |Zaug| denotes the number of all recombined features in the augmented feature set. (10) ここで n = |zaug| は拡張特徴集合のすべての再結合された特徴の数を表す。 0.73
Now, the model has been trained to be generalizable for test. 現在、モデルはテストのために一般化できるように訓練されている。 0.64
2.3. Inference The feature extractor and classifier have been fully trained after the first two phases. 2.3. 推論 特徴抽出器および分類器は最初の2段階の後で十分に訓練されました。 0.65
Given the i-th test image, the feature extractor firstly splits the semantic and illumination feature. i番目のテスト画像を考えると、特徴抽出器は最初に意味論と照明機能を分割します。 0.61
Subsequently, the features are blended, and then the classifier outputs the category label ˆc, formulated as: その後、特徴がブレンドされ、分類器は次のように定式化されたカテゴリラベル 「c」を出力します。 0.62
ˆci = arg max sci = arg max 0.47
c P (yic|zi) . c P (yic|zi)。 0.82
(11) The inference is achieved in an end-to-end manner. (11) 推論はエンドツーエンドで達成される。 0.72
3. Experiments 3.1. Datasets and experimental settings Datasets. 3. 実験3.1。 データセットと実験的設定データセット。 0.73
We validate the effectiveness of our method on two traffic sign datasets, GTSRB (Stallkamp et al., 2012) and Tsinghua-Tencent 100K (TT100K) (Zhu et al., 2016), and three logo datasets, BelgaLogos (Joly & Buisson, 2009; Letessier et al., 2012), FlirckrLogos-32 (Romberg et al., 2011) and TopLogo-10 (Su et al., 2017), because these datasets contain different illumination. GTSRB(Stallkamp et al., 2012)とTsinghua-Tencent 100K(TT100K)(Zhu et al., 2016)の2つのトラフィックサインデータセットと、BelgaLogos(Joly & Buisson, 2009; Letessier et al., 2012)、FlirckrLogos-32(Romb erg et al., 2011)とTopLogo-10(Su et al., 2017)の3つのロゴデータセットの有効性を検証する。 0.75
Table 1 shows the size and number of classes of each dataset (we use the dataset provided in (Kim et al., 2019)). 表1は、各データセットのサイズとクラス数を示しています((Kim et al., 2019)で提供されるデータセットを使用します)。 0.74
More details about the datasets are described in the supplementary material. データセットの詳細は補足資料に記載されている。 0.62
英語(論文から抽出)日本語訳スコア
Sill-Net: Feature Augmentation with Separated Illumination Representation Sill-Net: 分離イルミネーション表現による特徴増強 0.68
Table 1. Dataset specifications. 表1。 データセット仕様。 0.75
Dataset Size Classes データセット サイズクラス 0.70
GTSRB TT100K GTSRB TT100K 0.72
BelgaLogos BelgaLogos 0.85
FlickrLogos-32 FlickrLogos-32 0.59
TopLogo-10 TopLogo-10 0.59
51839 43 11988 51839 43 11988 0.85
36 9585 37 36 9585 37 0.85
3404 32 848 11 3404 32 848 11 0.85
Evaluation tasks. Generally, we evaluate our model by the following steps. 評価タスク。 一般に、以下の手順でモデルを評価する。 0.64
1) Utilize the training dataset (or subset) to separate out the illumination features. 1) 訓練データセット(またはサブセット)を使用して照明特徴を分離する。 0.79
2) The support samples are augmented with the illumination features to form an augmented feature set. 2) サポート サンプルは増強された特徴セットを形作るために照明特徴と増強されます。 0.79
3) Train a classifier on the augmented feature set. 3) 拡張特徴集合上で分類器を訓練する。 0.82
4) Prediction on the test dataset. 4) テストデータセットでの予測。 0.80
We validate our model on the following classification tasks. 我々は以下の分類タスクでモデルを検証する。 0.82
1) One-shot classification In this type of task, the training phase requires no real images of the test classes but one template image for each category. 1) ワンショット分類 このタイプのタスクでは、トレーニングフェーズはテストクラスの実際のイメージではなく、各カテゴリの1つのテンプレートイメージを必要とします。 0.76
This task is similar to the one-shot classification. このタスクはワンショット分類に似ている。 0.70
We set up two scenarios for traffic sign classification. 交通標識分類のシナリオを2つ設定しました。 0.71
In the first scenario, we split GTSRB into a training subset with 22 classes and a test subset with the other 21 classes, where the template images constitute the support set. 最初のシナリオでは、GTSRBを22のクラスを持つトレーニングサブセットと、他の21のクラスでテストサブセットに分割し、テンプレートイメージがサポートセットを構成する。 0.73
In the second scenario, we train on GTSRB and test on TT100K for crossdataset evaluation. 第2のシナリオでは、GTSRBでトレーニングし、TT100Kでクロスデータセット評価を行う。 0.64
We exclude four common classes shared by GTSRB and TT100K in the test set. GTSRBとTT100Kが共有する4つの共通クラスをテストセットで除外します。 0.64
For convenience, we denote the first scenario by GTSRB→GTSRB and the second by GTSRB→TT100K, where the training set is on the left side of the arrow while the test set is on the right. 便宜上、GTSRB→GTSRBによる第1シナリオと、GTSRB→TT100Kによる第2シナリオを示します。トレーニングセットは矢印の左側にあり、テストセットは右側にあります。 0.78
For logo classification, we use the largest BelgaLogos as a training set and the remaining two as test sets respectively, denoted by Belga→Flickr32 and Belga→Toplogos. ロゴ分類では,Belga→Flickr32とBelga→Toplogosで表される,最大のBelgaLogosをトレーニングセットとして,残りの2つをテストセットとして使用する。 0.73
Same as above, we remove four common classes in FlickrLogos32 and five in Toplogo-10 shared by BelgaLogos. 上記のように、FlickrLogos32の4つの共通クラスとBelgaLogosが共有するToplogo-10の5つの共通クラスを削除します。 0.59
2) Cross-domain one-shot classification To further validate the generalization of our method, we perform a cross-domain one-shot evaluation by another two experiments, where the model is trained on traffic sign datasets and tested on logo datasets. 2) クロスドメインワンショット分類 本手法の一般化をさらに検証するため, モデルがトラフィックサインデータセットでトレーニングされ, ロゴデータセットでテストされる2つの実験により, クロスドメインワンショット評価を行う。 0.79
Specifically, we train the model on GTSRB and test on FlickrLogos-32 and Toplogo-10. 具体的には、GTSRBでモデルをトレーニングし、FlickrLogos-32とToplogo-10でテストする。 0.64
We denote these two scenarios as GTSRB→Flickr32 and GTSRB→Toplogos. これらのシナリオを GTSRB→Flickr32 と GTSRB→Toplogos と表現する。 0.60
The setup is more challenging compared to the previous scenarios, since we train the model in the domain of traffic sign datasets while we test the model in an entirely different domain of logo datasets. 私たちが全く異なるロゴデータセットのドメインでモデルをテストしている間に、トラフィックサインデータセットのドメインでモデルをトレーニングするため、セットアップは以前のシナリオよりも難しいです。 0.73
Architecture and parameter settings. アーキテクチャとパラメータの設定。 0.82
We construct the extractor by six convolution layers to separate the semantic and illumination features (see the separation module in Figure 2). 抽出器を6つの畳み込み層で構築し、意味的および照明的特徴を分離する(図2の分離モジュールを参照)。 0.79
The reconstructor is built with layers of the extractor in an inversed order. 復元器は逆の順序で抽出器の層と造られます。 0.68
The classifiers (see Figure 2 and Figure 3) are built with six convolution layers and three pooling layers. 分類器(図2と図3)は6つの畳み込み層と3つのプール層で構築されています。 0.74
Due to space limitations, more details of the 空間制限のため、より詳細が分かる。 0.77
architecture are described in the supplementary material. 建築は補足材料で記述されます。 0.68
The networks are trained using the ADAM optimizer with learning rate 10−4, β = (0.9, 0.999) and  = 10−8. ネットワークは、学習率10−4, β = (0.9, 0.999) と 10−8 のadamオプティマイザを用いてトレーニングされる。 0.64
The mixup proportion r is set to 0.5 throughout the experiments. 混合比率rは実験中0.5に設定される。 0.81
Limited by graphics card memory, we choose the mini-batch size of 16, which can be larger if conditions permit. グラフィックスカードメモリによって制限され、条件が許せばより大きいことができる16のミニバッチサイズを選びます。 0.75
The matching and reconstruction loss functions are weighted by proportionality coefficients for optimal results. マッチングと再構成損失関数は最適な結果のために比例係数によって重み付けされる。 0.70
The weighted overall loss function is expressed as follows: 加重損失関数は次のように表される。 0.69
L = αLmatch + γLrecon + Lclass + Lillu. L = αLmatch + γLrecon + Lclass + Lillu。 0.98
(12) We can choose α and γ in the range of [10−3, 10−1]. (12) [10−3, 10−1]の範囲でαとγを選択することができる。 0.78
When they are too large, the model tends to learn false features with values close to zero. モデルが大きすぎると、0に近い値を持つ誤った特徴を学習する傾向がある。 0.77
While when they are too small, the model is not able to learn informative semantic features. モデルが小さすぎると、情報的な意味的特徴を学習できない。 0.63
In our method, α is set as 10−2 and γ is set as 10−1. 本手法ではαを10−2とし、γを10−1とする。 0.75
Template image processing. テンプレート画像処理。 0.73
Previous studies (Tabelini et al., 2020) have shown that basic image processing on template images (as support samples) helps the network’s generalization. 以前の研究(Tabelini et al., 2020)は、テンプレート画像の基本的な画像処理(サポートサンプルとして)がネットワークの一般化に役立つことを示しています。 0.77
In our experiment, we diversify the template images themselves using the following methods: geometric transformations, image enhancement (including brightness, color, contrast and sharpness adjustment), and blur. 実験では,幾何学的変換,画像エンハンスメント(輝度,色,コントラスト,シャープネス調整を含む),ボケなどを用いてテンプレート画像自体の多様化を行った。 0.77
The template images are diversified and thus allow the model to learn more generalizable features. テンプレートイメージは多様化しており、モデルがより汎用的な特徴を学ぶことができる。 0.75
We observe that basic processing on template images improves model performance. テンプレート画像の基本処理がモデル性能を向上させることを観察する。 0.76
3.2. One-shot classification 3.2. ワンショット分類 0.74
We compare our method with Quadruplet networks (Kim et al., 2017) (QuadNet) and Variational Prototyping-Encoder (Kim et al., 2019) (VPE) for one-shot classification, reported in Table 2 and 3. 本手法をQuadruplet Network (Kim et al., 2017) (QuadNet) および Variational Prototyping-Encoder (Kim et al., 2019) と比較し, 表2および3に報告した。
訳抜け防止モード: 本手法をQuadrupletネットワーク(Kim et al , .)と比較した。 2017 ) ( QuadNet ) and Variational Prototyping - Encoder ( Kim et al ., 2019 ) ( VPE ) for one - shot classification, 表2および3で報告される。
0.81
We quote accuracies of the compared methods under their optimal settings, that is, VPE is implemented with augmentation and spatial transformer (VPE+aug+stn version) and QuadNet is implemented without augmentation. VPEは拡張・空間変換器(VPE+aug+stnバージョン)で実装され,QuadNetは拡張なしで実装されている。
訳抜け防止モード: 最適な設定で比較した手法の精度を引用する。 つまり、VPEは拡張および空間変換器(VPE+aug+stnバージョン)で実装される。 QuadNetは拡張なしで実装されている。
0.56
As shown in the tables, our method outperforms comparative methods in all scenarios. 表に示すように、我々のメソッドはすべてのシナリオで比較メソッドよりも優れています。 0.58
Table 2. One-shot classification accuracy (%) on traffic sign datasets. 表2。 交通標識データセットのワンショット分類精度(%)。 0.79
The results of other methods are cited from (Kim et al., 2017; 2019). 他の手法の結果が引用されている(Kim et al., 2017; 2019)。 0.84
The best results are marked in blue. 最良の結果は青で示される。 0.80
No. support set いいえ。 サポートセット 0.77
QuadNet VPE Sill-Net Sill-Net w/o aug QuadNet VPE Sill-Net w/o aug 0.78
GTSRB→GTSRB GTSRB→GTSRB 0.59
(22+21)-way GTSRB→TT100K (22+21) GTSRB→TT100K 0.66
36-way 45.2 83.79 97.60 46.25 36ウェイ 45.2 83.79 97.60 46.25 0.55
N/A 71.80 95.59 45.94 N/A 71.80 95.59 45.94 0.45
In traffic sign classification, Sill-Net outperforms the second best method VPE by a large margin of 13.81% (accuracy 交通標識分類において、Sill-Netは13.81%の大きなマージンで2番目のベストメソッドVPEを上回っている(精度)。 0.55
英語(論文から抽出)日本語訳スコア
Sill-Net: Feature Augmentation with Separated Illumination Representation Sill-Net: 分離イルミネーション表現による特徴増強 0.68
improved from 83.79% to 97.60%) and 23.79% (accuracy improved from 71.80% to 95.59%) respectively in two scenarios (see Table 2). 83.79%から97.60%に、23.79%(精度は71.80%から95.59%に改善)の2つのシナリオで改善された(表2参照)。 0.68
It indicates that training on the features augmented by illumination information does help the real-world classification, even though only one template image is provided. 照明情報によって強化された特徴のトレーニングは、テンプレート画像が1つしか提供されていなくても、現実世界の分類に役立ちます。 0.68
It is notable that in the cross-dataset scenario GTSRB→TT100K, Sill-Net achieves a comparable performance to the intra-dataset scenario GTSRB→GTSRB, while VPE performs much worse in the cross-dataset scenario. クロスデータセットシナリオ GTSRB→TT100K において、Sill-Net はイントラデータセットシナリオ GTSRB→GTSRB に匹敵するパフォーマンスを達成し、VPE はクロスデータセットシナリオではるかに悪いパフォーマンスを発揮します。 0.72
We surmise it is because VPE learns latent embeddings generalizable to test classes in the same domain (GTSRB), but the generalization might be discounted when the target domain is slightly shifted (from GTSRB to TT100K). VPEは、同一ドメイン(GTSRB)におけるテストクラスに一般化可能な潜伏埋め込みを学習するが、対象ドメインがわずかにシフトした場合(GTSRBからTT100Kへ)、一般化は割引される可能性がある。 0.70
It is observed that the illumination conditions in GTSRB are quite similar to that in TT100K, therefore Sill-Net shows better generalization performance by making full use of the illumination information in GTSRB. GTSRB の照明条件は TT100K の照明条件と非常によく似ているため,Sill-Net は GTSRB の照明情報を完全に活用することにより,より優れた一般化性能を示す。 0.73
Table 3. One-shot classification accuracy (%) on logo datasets. 表3。 ロゴデータセットのワンショット分類精度(%)。 0.77
The results of other methods are cited from (Kim et al., 2017; 2019). 他の手法の結果が引用されている(Kim et al., 2017; 2019)。 0.84
The best results are marked in blue. 最良の結果は青で示される。 0.80
No. support set いいえ。 サポートセット 0.77
QuadNet VPE Sill-Net Sill-Net w/o aug QuadNet VPE Sill-Net w/o aug 0.78
Belga→Flickr32 Belga→Flickr32 0.47
32-way Belga→Toplogos 32-way Belga→Toplogos 0.59
11-way 37.72 53.53 65.21 52.38 11系統 37.72 53.53 65.21 52.38 0.47
36.62 57.75 84.43 47.95 36.62 57.75 84.43 47.95 0.45
In logo classification, Sill-Net improves the performance by 11.68% (from 53.53% to 65.21%) and 26.68% (from 57.75% to 84.43%) compared to VPE, respectively in two scenarios (see Table 3). ロゴ分類では、Sill-Net は VPE と比較して 11.68% (53.53% から 65.21%) と 26.68% (57.75% から 84.43%) のパフォーマンスをそれぞれ2つのシナリオで改善している(表 3 参照)。 0.71
The improvement of accuracies in logo classification is not comparable to that in traffic classification, which might be due to the undesirable quality of the training logo dataset. ロゴ分類における精度の向上は、トレーニングロゴデータセットの望ましくない品質のためにあるかもしれないトラフィック分類のそれと匹敵しない。 0.74
The GTSRB is the largest dataset with various illumination conditions. GTSRBは様々な照明条件を持つ最大のデータセットである。 0.74
And the traffic signs are always complete and well localized in the images so that illumination features can be separated more easily. そして、交通標識は常に完ぺきで、画像によくローカライズされているので、照明機能がより簡単に分離できる。 0.68
In contrast, the separation is harder for logo dataset due to incomplete logos, color variations, and non-rigid deformation (e.g., logos on the bottles). 対照的に、不完全なロゴ、色の変化、非厳密な変形(例えばボトルのロゴ)のために、ロゴデータセットの分離は困難である。 0.66
We compare our method to the ordinary convolutional model consisting of a feature extractor and a classifier without feature augmentation, denoted as Sill-Net w/o aug (see the last row of Tables 2 and 3). 本手法は,特徴抽出器と特徴拡張のない分類器からなる通常の畳み込みモデルと比較し,syl-net w/o augと表現する(表2と表3の最後の行を参照)。 0.75
For a fair comparison, the feature extractor and classifier share the same number of convolutional layers with Sill-Net. 公平な比較のために、特徴抽出器と分類器は同じ数の畳み込み層をSill-Netと共有する。 0.68
We train it on a synthetic dataset composed of the template images after basic processing (i.e., geometric transformations, image enhancement, and blur). 基本的な処理(幾何学的変換、画像強調、ぼかしなど)の後、テンプレートイメージからなる合成データセットでトレーニングします。 0.74
The number of training samples is set to be the same as other methods. トレーニングサンプルの数は、他の方法と同じに設定されている。 0.81
The results are reported as a reference to show how the Sill-Net performs without illumination feature augmentation. 結果は、Sill-Netが照明機能拡張なしでどのように機能するかを示すリファレンスとして報告されている。 0.49
The unsatisfactory results show that the illu- 不満足な結果はilu-を示す 0.78
mination feature augmentation does enhance the recognition ability of the model in one-shot classification. ファミネーション機能拡張は、ワンショット分類におけるモデルの認識能力を高める。 0.76
3.3. Cross-domain one-shot classification 3.3. クロスドメインワンショット分類 0.68
Sill-Net achieves the best results among all methods in crossdomain one-shot classification tasks, as shown in Table 4. Sill-Netは、表4に示すように、クロスドメインのワンショット分類タスクにおけるすべての方法の中で最良の結果を達成します。
訳抜け防止モード: Sill - Netはクロスドメイン1のすべてのメソッドの中で最高の結果を得る。 表4に示すように。
0.64
It outperforms VPE by a large margin of 23.63% (69.75% compared to 46.12%) in GTSRB→Flickr32 and 39.86% (69.46% compared to 29.60%) in GTSRB→Toplogos. GTSRB→Flickr32では23.63%(69.75%対46.12%)、GTSRB→Toplogosでは39.86%(69.46%対29.60%)でVPEを上回っている。 0.61
Table 4. Cross-domain one-shot classification accuracy (%). 表4。 クロスドメインワンショット分類精度(%)。 0.75
The models are trained on the traffic sign dataset (GTSRB) and tested on the logo datasets. モデルはgtsrb(traffic sign dataset)でトレーニングされ、ロゴデータセットでテストされる。 0.70
The best results are marked in blue. 最良の結果は青で示される。 0.80
No. support set いいえ。 サポートセット 0.77
QuadNet VPE Sill-Net Sill-Net w/o aug QuadNet VPE Sill-Net w/o aug 0.78
GTSRB→Flickr32 GTSRB→Flickr32 0.47
32-way GTSRB→Toplogos 32-way GTSRB→Toplogos 0.59
11-way 28.41 46.12 69.75 53.94 11系統 28.41 46.12 69.75 53.94 0.47
25.38 29.60 69.46 47.54 25.38 29.60 69.46 47.54 0.45
The results illustrate that our method is still generalizable when the domain is transferred from traffic signs to logos. 提案手法は,道路標識からロゴへドメインを移す際にも適用可能であることを示す。 0.58
The unsatisfactory results of VPE are predictable. VPEの不満足な結果は予測可能です。 0.66
VPE learns a generalizable similarity embedding space of the semantic information among the same or similar domain (i.e., from traffic signs to traffic signs or from logos to logos). VPEは、同一または類似のドメイン(例えば、交通標識から交通標識、ロゴからロゴまで)のセマンティック情報の一般化可能な類似性埋め込み空間を学習する。 0.81
However, the embeddings learned from traffic signs are difficult to generalize to logos. しかし,交通標識から得られた埋め込みはロゴへの一般化が困難である。 0.64
In contrast, our method learns well-separated semantic and illumination representations and augments the illumination features to the template images from novel domains to generalize the model. 対照的に,本手法はセマンティック表現と照明表現を高度に分離し,新しい領域のテンプレート画像に照明機能を付加し,モデルを一般化する。 0.77
3.4. Ablation study 3.4. アブレーション研究 0.70
In this section, we delve into the contribution of each component of our method. このセクションでは、メソッドの各コンポーネントの貢献について説明します。 0.70
The components under evaluation include the exchange mechanism, the matching and reconstruction module, the illumination constraint, and template image processing, as shown in Table 5. 評価中のコンポーネントには、表5に示すように、交換メカニズム、マッチングおよび再構築モジュール、照明制約、およびテンプレート画像処理が含まれます。 0.78
We disable one component at a time and then record the performance to assess its importance. 一度に1つのコンポーネントを無効にし、その重要性を評価するためにパフォーマンスを記録します。 0.63
The experiments are implemented in the one-shot classification scenario GTSRB→GTSRB. 実験は、一発分類シナリオ GTSRB→GTSRB で実施される。 0.74
The results demonstrate that the exchange mechanism and matching module are the core components of our method. その結果,交換機構とマッチングモジュールが本手法のコアコンポーネントであることを実証した。 0.77
The accuracy of the model drops to 48.10% without exchange mechanism. モデルの精度は交換機構なしで48.10%に低下する。 0.82
It is because that the semantic and illumination features cannot be well separated without the exchange mechanism. これは、セマンティクスと照明機能は交換機構なしでは十分に分離できないためである。 0.79
The remaining semantic information in the illumination features is useless, or even would interfere with the recognition when they are combined with the semantic features of other objects during feature augmentation, hurting the performance of the model. 照明機能の残りのセマンティック情報は役に立たないか、あるいは機能拡張時に他のオブジェクトのセマンティックな特徴と組み合わせることで認識を阻害し、モデルの性能を損なう。 0.70
英語(論文から抽出)日本語訳スコア
Sill-Net: Feature Augmentation with Separated Illumination Representation Sill-Net: 分離イルミネーション表現による特徴増強 0.68
Meanwhile, the matching module cooperating with the separation module can further separate the semantic and illumination features. 一方、分離モジュールと協調するマッチングモジュールは、セマンティクスと照明機能を更に分離することができる。 0.81
The matching module corrects the deformation of the object features. マッチングモジュールは、オブジェクトの特徴の変形を補正する。 0.83
It retains the concrete semantic information (e.g., the outline of the object and semantic details of the object contents) with the supervision of template images. テンプレート画像の監督により、具体的な意味情報(例えば、オブジェクトの概要とオブジェクトの内容の意味的詳細)を保持する。 0.71
Without the matching module, the semantic features would not be informative enough, so that the separation module would have difficulty to separate the illumination features from the semantic features. マッチするモジュールがなければ、セマンティック機能は十分な情報を持っていないため、分離モジュールは、照明機能をセマンティック機能から切り離すことが困難になる。 0.79
Therefore, the accuracy of the model drops to 54.27% when the matching module is removed. したがって、マッチングモジュールを削除すると、モデルの精度は54.27%に低下する。 0.79
Table 5. Ablation study results (%) in the one-shot classification scenario GTSRB→GTSRB. テーブル5。 単発分類シナリオGTSRB→GTSRBにおけるアブレーション研究結果(%) 0.78
We disable one component at a time and record the performance of Sill-Net. 一度にひとつのコンポーネントを無効にし、Sill-Netのパフォーマンスを記録します。 0.59
Factor w/o exchange mechanism w/o matching module w/o reconstruction module w/o illumination constraint w/o template processing full method パラメータ w/o 交換機構 w/o マッチングモジュール w/o 再構築モジュール w/o 照明制約 w/o テンプレート処理フルメソッド 0.66
Accuracy (decrement) 48.10 (-49.50) 54.27 (-43.33) 80.74 (-16.86) 90.73 (-6.87) 80.19 (-17.41) 97.60 Accuracy (decrement) 48.10 (-49.50) 54.27 (-43.33) 80.74 (-16.86) 90.73 (-6.87) 80.19 (-17.41) 97.60 0.64
The accuracy of the model decreases by 16.86% without the reconstruction module. モデルの精度は、復元モジュールなしで16.86%低下する。 0.76
The reconstruction module also strives to make semantic features more informative. リコンストラクションモジュールはまた、セマンティックな機能をより情報的にするためにも取り組んでいる。 0.51
The matching module helps the model capture some level of the concrete semantic information, while the reconstruction module prompts to retain more delicate details of the object. レコンストラクションモジュールはオブジェクトのより繊細な詳細を保持するように促されるが、マッチングモジュールはモデルが具体的意味情報のある程度のレベルを取得するのに役立つ。 0.74
The illumination constraint increases the model performance by 6.87%. 照明制約によりモデル性能が6.87%向上する。 0.76
Intuitively, the constraint reduces the semantic information in illumination features and thus enhances their quality. 直感的には、制約は照明特徴における意味情報を減少させ、その品質を高める。 0.61
Higher-quality illumination representation can improve our feature augmentation method’s effectiveness, which is consistent with the results. 高品質な照明表現は、その結果と一致した特徴増強手法の有効性を向上させることができる。 0.75
Furthermore, template image processing improves model performance as expected. さらに、テンプレート画像処理は予想通りモデル性能を向上させます。 0.71
The processing methods (i.e., geometric transformations, image enhancement, and blur as introduced before) diversify the template images so that the trained model is more generalizable. 処理方法(幾何学的変換、画像強調、ぼかしなど)は、トレーニングされたモデルをより一般化できるようにテンプレートイメージを多様化する。 0.77
Under the combined effect of the proposed illumination augmentation in the feature space and the variation of template images, the full model achieves the best results among the existing methods. 提案手法は,特徴空間における照明増強とテンプレート画像の変動を併用することにより,既存手法の最良の結果が得られる。 0.71
3.5. Visualization of features 3.5. 特徴の可視化 0.79
Figure 4 shows the separated semantic and illumination features of the images from training and test classes in GTSRB, visualized in the third and fourth lines. 図4は、3行目と4行目で視覚化されたGTSRBのトレーニングおよびテストクラスから画像の分離された意味論的および照明的特徴を示しています。 0.67
Note that the training and test datasets share no common classes. トレーニングとテストデータセットは共通クラスを共有しない。 0.72
As shown in the figure, the semantic features delicately retain information consistent with the template images for both training and test classes. 図に示すように、セマンティクス機能はトレーニングクラスとテストクラスの両方でテンプレートイメージと一貫性のある情報を繊細に保持する。 0.75
It is due to three aspects. それは三つの側面による。 0.67
First, Figure 4. Visualization of the separated features and the reconstructed template images from training and test classes. まずは。 図4。 訓練クラスとテストクラスから分離した特徴と再構成テンプレート画像の可視化 0.73
The first two rows show the input images and their corresponding template images. 最初の2行は入力画像とそのテンプレート画像を表示する。 0.66
The third and fourth rows show the semantic and illumination features of the input images separated by our model. 3行目と4行目は,我々のモデルで分離した入力画像の意味的特徴と照明的特徴を示す。 0.64
The last row shows the template images reconstructed from the semantic features. 最後の行は、セマンティックな特徴から再構成されたテンプレートイメージを示している。 0.61
More visualization results are shown in the supplementary material. 補助材料にさらなる可視化結果が示されている。 0.69
the extractor maintains the size and spatial information of the features. 抽出器は特徴のサイズおよび空間情報を維持します。 0.83
Second, although objects in the input images vary in size and position, the features are corrected to the normal situation corresponding to the template images via the spatial transformer in the matching module. 第二に、入力画像内のオブジェクトのサイズと位置は異なるが、その特徴はマッチングモジュール内の空間変換器を介してテンプレート画像に対応する通常の状況に補正される。 0.86
Third, the reconstruction module promotes the semantic feature to retain the details of the objects. 第三に、再構築モジュールは、オブジェクトの詳細を保持するためにセマンティック機能を促進する。
訳抜け防止モード: 第三に、再構成モジュールは意味的特徴を促進する オブジェクトの詳細を保持するためです
0.81
In contrast, the semantic information is effectively reduced in illumination features. 対照的に、意味情報は照明特徴において効果的に減少する。 0.68
These features reflect the illumination conditions in the original images to a certain extent. これらの特徴は、オリジナル画像の照明条件をある程度反映している。 0.80
Intuitively, the pink parts in the features represent the bright illumination while the green parts represent the dark illumination. 直感的には、特徴のピンクの部分は明るい照明を表し、緑色の部分は暗い照明を表す。 0.76
Such well-separated representations lay the foundation for the good performance of our model. このような適切に分離された表現は、私たちのモデルの優れたパフォーマンスの基礎となります。 0.49
3.6. Template image reconstruction 3.6. テンプレート画像再構成 0.75
While the reconstructor serves to obtain informative semantic features during training, it can also retrieve the template images in the inference phase. 再構成器は、トレーニング中に情報的意味的特徴を得るのに役立ち、推論フェーズでテンプレート画像を取得することもできる。 0.71
As shown in the last row of Figure 4, the reconstructor robustly generates the template images of both the training and test samples, regardless of illumination variance, object deformation, blur, and low resolution of the images. 図4の最後の行に示すように、再構成器は、画像の照明ばらつき、物体変形、ぼけ、解像度の低下にかかわらず、トレーニングおよびテストサンプルの両方のテンプレート画像をロバストに生成する。 0.71
Not only outlines of the symbol contents but also fine-details are well restored in the generated template images, which improves the reconstruction results by VPE. 生成されたテンプレート画像では,シンボル内容のアウトラインだけでなく細部もよく復元され,VPEによる再構成結果が向上する。 0.79
Our results further demonstrate that the proposed model have learned good represents of semantic information for both classification and reconstruction. さらに,提案モデルが分類と再構築の両方において意味情報のよい表現を学習していることを実証した。 0.70
TemplateInputSemanti cIlluminationReconst ructedTraining classesTest classes templateinputsemanti cillumination reconstructedtrainin g classtestクラス 0.29
英語(論文から抽出)日本語訳スコア
Sill-Net: Feature Augmentation with Separated Illumination Representation Sill-Net: 分離イルミネーション表現による特徴増強 0.68
4. Discussions So far, our studies have validated the feasibility and effectiveness of illumination-based feature augmentation. 4. 本研究は,照明による特徴増強の実現可能性と有効性を検証するものである。 0.77
The idea of learning good semantic and illumination features before training a classifier is consistent with the thinking of decoupling representation and classifier (Zhang & Yao, 2020). 分類器を訓練する前に優れた意味と照明機能を学ぶという考えは、表現と分類器を分離する考えと一致しています(Zhang & Yao, 2020)。 0.68
Compared to the existing approaches (Kim et al., 2017; 2019), our method not only achieves the best results on the traffic sign and logo classifications, but also learns intuitively interpretable semantic and illumination representation and performs better reconstructions. 既存の手法(Kim et al., 2017; 2019)と比較して,本手法は交通標識やロゴの分類において最高の結果を得るだけでなく,直感的に解釈可能な意味表現や照明表現を学習し,より良い再構築を行う。 0.72
Our method can be widely applied to a series of training scenarios. 本手法は,一連のトレーニングシナリオに広く適用可能である。 0.75
In the case that the training samples with certain illumination conditions are limited in the dataset, we can augment these samples with that type of illumination features separated from other images (or simply use the illumination features in our repository). データセットに一定の照明条件を持つトレーニングサンプルが制限されている場合、これらのサンプルを、他の画像から分離したタイプの照明機能(または、リポジトリ内の照明機能を使用する)で拡張することができる。 0.76
Besides, we can utilize the method to expand a few support samples or even only one (e.g., template images) to form a large training dataset, solving the problem of lacking annotated real data. その上、いくつかのサポートサンプルまたは1つ(テンプレート画像など)だけを拡大して大規模なトレーニングデータセットを形成し、注釈付き実データがないという問題を解決する方法を利用することができます。 0.68
Overall, the imbalance both in size and illumination conditions of the dataset could be alleviated since we can transplant illumination information to specific training samples with a limited number and illumination diversity. 全体としてデータセットのサイズと照明条件のバランスが悪くなるのは、照明情報を限られた数と照明多様性を持つ特定のトレーニングサンプルに移植できるためである。 0.76
Here is one question that why we do not classify a test sample by its semantic feature after the separation. 分離後のセマンティクス機能によってテストサンプルを分類しない理由のひとつがここにあります。 0.79
Actually, we have to train the classifier with the augmented samples because generally there are not many support samples in few-shot or one-shot scenarios. 実際、数発または1発のシナリオでサポートサンプルがあまりないので、拡張サンプルで分類器を訓練する必要があります。 0.71
If we trained the classifier with a few support samples, it would be poor in generalization due to the memorization of deep networks (Arpit et al., 2017). もし、いくつかのサポートサンプルで分類器を訓練すれば、ディープネットワークの記憶のために一般化が不十分になる(Arpit et al., 2017)。 0.70
While when we extend the volume and diversity of the feature set by illumination augmentation, the trained model can be more generalizable. 照明増強によって設定された特徴量と多様性を拡張すると、訓練されたモデルはより一般化できる。 0.72
Our work can be improved from the following aspects. 私たちの仕事は以下の点から改善できます。 0.81
First, it should be noted that the illumination features learned by our model seem to reflect relative illumination intensity rather than fine details, limited by the lack of illumination supervision. まず,我々のモデルで得られた照明特性は,照明監督の欠如によって制限される細部よりも,相対照明強度を反映しているように思われる。 0.78
The constraint used in our method improves the quality of illumination features to some extent and thus enhances the model performance. 本手法では,照明特性の品質をある程度向上させ,モデル性能を向上させる。 0.75
However, alternative disentanglement methods with more stringent constraints or pretraining on illumination supervised data, can be applied to obtain refined illumination representation. しかし、より厳密な制約や照明教師データへの事前学習を伴う代替の異角化手法を適用することで、洗練された照明表現を得ることができる。 0.48
Second, the spatial transformation network (STN) can be substituted by other networks in the matching module. 次に、空間変換ネットワーク(STN)を、マッチングモジュール内の他のネットワークに置換することができる。 0.73
In traffic sign classifications, STN can well correct the semantic features to be consistent with that of the templates. トラフィックサインの分類では、STNはテンプレートと整合性のあるセマンティックな特徴を適切に修正することができる。
訳抜け防止モード: 交通標識分類において、STNは意味的特徴を適切に補正できる テンプレートと一致しています
0.78
However, it is sometimes difficult to deal with the non-rigid deformation in logo datasets. しかし、ロゴデータセットの非剛性変形に対処することは時々困難である。 0.74
Furthermore, general objects might be distinct with the templates in many aspects, such さらに、一般的なオブジェクトは、多くの面でテンプレートと異なる場合があります。 0.73
as color variation and changes in visual angles. 色の変化や視野角の変化などです 0.77
Two ways can be considered. 2つの方法が考えられる。 0.72
First, we can choose several different templates for different types of variation. まず、さまざまな種類のバリエーションのテンプレートを複数選択できます。 0.65
Second, we can develop general networks to deal with such transformations. 第2に、このような変換を扱う汎用ネットワークを開発することができる。 0.57
For instance, we can translate the objects along directions (e.g., color and visual angles) in the feature space to the templates via semantic transformations (Wang et al., 2020). 例えば、特徴空間の方向(例えば、色や視覚的な角度)に沿ってオブジェクトを意味的変換(Wang et al., 2020)によってテンプレートに変換できます。 0.79
5. Realated works Data augmentation is an effective data-space solution to the problem of limited data (Shorten & Khoshgoftaar, 2019). 5. Realated Works Data Augmentationは、限られたデータ(Shorten & Khoshgoftaar, 2019)の問題に対する効果的なデータ空間ソリューションです。 0.82
Augmentations based on data warping transform existing images by some methods while preserving the original labels (LeCun et al., 1998; Zheng et al., 2019). データワープに基づく拡張は、いくつかの方法で既存の画像を変換し、元のラベルを保存する(LeCun et al., 1998; Zheng et al., 2019)。 0.66
Oversampling augmentations enhance the datasets by generating synthetic training samples (Inoue, 2018; Bowles et al., 2018). オーバーサンプリングは、合成トレーニングサンプルを生成することでデータセットを強化する(Inoue, 2018; Bowles et al., 2018)。 0.70
In this work, we propose a method of feature space augmentation. 本研究では,特徴空間増強の手法を提案する。 0.67
This kind of augmentations implement the transformation in a learned feature space rather than the input space (DeVries & Taylor, 2017). この種の拡張は、入力空間よりも学習された機能空間で変換を実装する(devries & taylor, 2017)。 0.78
Recently, augmentation methods on semantic feature space are proposed to regularize deep networks (Wang et al., 2020; Bai et al., 2020). 近年,深いネットワークを正規化するための意味的特徴空間の拡張手法が提案されている(Wang et al., 2020; Bai et al., 2020)。 0.78
Unlike these methods, we augment the samples with interpretable illumination representation in an easier way. これらの方法とは異なり、より容易に解釈可能な照明表現でサンプルを補強する。 0.72
Few-shot learning. わずかながらの学習。 0.58
Early efforts for few-shot learning were based on generative models that sought to build the Bayesian probabilistic framework (Fei-Fei et al., 2006). 初期の数発学習の取り組みは、ベイズ確率的フレームワークの構築を目的とした生成モデルに基づいていた(Fei-Fei et al., 2006)。 0.72
Recently, more attention was paid on meta-learning, which can be generally summarized into five sub-categories: learn-tomeasure (e.g., MatchNets (Vinyals et al., 2016), ProtoNets (Snell et al., 2017)), learn-to-finetune (e.g., MAML (Finn et al., 2017)), learn-to-remember (e.g., SNAIL (Mishra et al., 2018)), learn-to-adjust (e.g., MetaNets (Munkhdalai & Yu, 2017)) and learn-to-parameteriz e (e.g., DynamicNets (Gidaris & Komodakis, 2018)). 最近、メタラーニングにもっと注意が払われており、一般的には、Learning-toMeasure(例:MatchNets (Vinyals et al., 2016)、ProtoNets (Snell et al., 2017)、Learning-to-finetune (例:MAML (Finn et al., 2017))、Learning-to-remember (例:SNAIL (Mishra et al., 2018))、Learning-to-adjust(例:MetaNets (Munkhdalai & Yu, 2017))、Learning-to-paramete rize(例:DynamicNets (Gidaris & Komodakis, 2018)の5つのサブカテゴリに分類できる。 0.81
In this work, we used tasks similar to one-shot learning to evaluate our method. 本研究では,ワンショット学習と同様のタスクを用いて評価を行った。 0.70
6. Conclusion In this paper, we develop a novel neural network architecture named Separating-Illuminat ion Network (Sill-Net). 6. 結論 この論文では、分離イルミネーションネットワーク(Sill-Net)と呼ばれる新しいニューラルネットワークアーキテクチャを開発する。 0.77
The illumination features can be well separated from training images by Sill-Net. 照明機能は、Sill-Netによるトレーニング画像からうまく分離できます。 0.73
These features can be used to augment the support samples. これらの機能はサポートサンプルの拡張に使用することができる。 0.69
Our method outperforms the state-of-the-art (SOTA) methods by a large margin in several benchmarks. 提案手法は,いくつかのベンチマークにおいて,最先端(SOTA)手法よりも大きなマージンを達成している。 0.49
In addition to these improvements in visual applications, the results demonstrate the feasibility of the illumination-based augmentation method in the feature space in object recognition, which is a potential research direction about data augmentation. これらの視覚的アプリケーションの改善に加えて、データ拡張に関する潜在的な研究方向性であるオブジェクト認識における特徴空間における照明ベースの増強方法の実現性を示す。 0.85
英語(論文から抽出)日本語訳スコア
Sill-Net: Feature Augmentation with Separated Illumination Representation Sill-Net: 分離イルミネーション表現による特徴増強 0.68
References Arpit, D., Jastrz˛ebski, S., Ballas, N., Krueger, D., Bengio, E., Kanwal, M. S., Maharaj, T., Fischer, A., Courville, A., Bengio, Y., et al. Arpit, D., Jastrz sebski, S., Ballas, N., Krueger, D., Bengio, E., Kanwal, M. S., Maharaj, T., Fischer, A., Courville, A., Bengio, Y.などを参照。 0.86
A closer look at memorization in deep networks. 深層ネットワークにおける記憶を詳しく調べる。 0.68
In International Conference on Machine Learning, pp. 英語) international conference on machine learning, pp. 0.80
233–242. PMLR, 2017. 233–242. 2017年、PMLR。 0.68
8 Bai, H., Sun, R., Hong, L., Zhou, F., Ye, N., Ye, H.-J., Chan, S.-H. G., and Li, Z. Decaug: Out-of-distribution generalization via decomposed feature representation and semantic augmentation. 8 Bai, H., Sun, R., Hong, L., Zhou, F., Ye, N., Ye, H.-J., Chan, S.-H. G., and Li, Z. Decaug: Out-of-distriion generalization via decomposed feature representation and semantic augmentation。 0.89
arXiv preprint arXiv:2012.09382, 2020. arXiv preprint arXiv:2012.09382, 2020 0.81
8 Bowles, C., Chen, L., Guerrero, R., Bentley, P., Gunn, R., Hammers, A., Dickie, D. A., Hernández, M. V., Wardlaw, J., and Rueckert, D. Gan augmentation: Augmenting training data using generative adversarial networks. 8 Bowles, C., Chen, L., Guerrero, R., Bentley, P., Gunn, R., Hammers, A., Dickie, D. A., Hernández, M. V., Wardlaw, J., Rueckert, D. Gan augmentation, D. Gan augmentation: 生成的敵ネットワークを用いたトレーニングデータの拡張。 0.89
arXiv preprint arXiv:1810.10863, 2018. arXiv preprint arXiv:1810.10863, 2018 0.80
8 DeVries, T. and Taylor, G. W. Dataset augmentation in feature space. 8 DeVries, T. and Taylor, G. W. Dataset augmentation in feature space. 0.92
arXiv preprint arXiv:1702.05538, 2017. arXiv preprint arXiv:1702.05538, 2017 0.80
8 Fei-Fei, L., Fergus, R., and Perona, P. One-shot learning of 8 Fei-Fei, L., Fergus, R., and Perona, P. ワンショット学習 0.90
object categories. オブジェクトのカテゴリ。 0.78
TPAMI, 28(4):594–611, 2006. TPAMI, 28(4):594–611, 2006。 0.88
8 Finn, C., Abbeel, P., and Levine, S. Model-agnostic metalearning for fast adaptation of deep networks. 8 Finn, C., Abbeel, P., Levine, S. Model-Agnostic metalearning for fast adapt of deep network。 0.84
In ICML, 2017. 2017年、ICML。 0.70
8 Gidaris, S. and Komodakis, N. Dynamic few-shot visual 8 Gidaris, S. and Komodakis, N. dynamic few-shot visual 0.85
learning without forgetting. In CVPR, 2018. 忘れずに学びます 2018年、CVPR。 0.59
8 He, K., Zhang, X., Ren, S., and Sun, J. 8 He, K., Zhang, X., Ren, S., and Sun, J。 0.84
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. Proceedings of the IEEE conference on computer vision and pattern recognition, pp。 0.72
770–778, 2016. 770–778, 2016. 0.84
1 Inoue, H. Data augmentation by pairing samples for images classification. 1 井上、H.画像分類のためのサンプルのペアリングによるデータ増強。 0.75
arXiv preprint arXiv:1801.02929, 2018. arXiv preprint arXiv:1801.02929, 2018 0.79
8 Jaderberg, M., Simonyan, K., Zisserman, A., et al. 8 Jaderberg、M.、Simonyan、K.、Zisserman、A.、等。 0.86
Spatial transformer networks. 空間トランスネットワーク。 0.55
In Advances in neural information processing systems, pp. In Advances in Neural Information Processing System, pp。 0.75
2017–2025, 2015. 2017–2025, 2015. 0.84
3 Joly, A. and Buisson, O. 3 Joly, A. and Buisson, O. 0.90
Logo retrieval with a contrario visual query expansion. 対向的な視覚的クエリ拡張によるロゴ検索 0.64
In Proceedings of the 17th ACM international conference on Multimedia, pp. 第17回ACM国際会議のProceedings of the 17th ACM International Conference on Multimedia, pp。 0.68
581–584, 2009. 581–584, 2009. 0.84
4 Kim, J., Lee, S., Oh, T.-H., and Kweon, I. S. Co-domain embedding using deep quadruplet networks for unseen traffic sign recognition. 4 Kim, J., Lee, S., Oh, T.-H., and Kweon, I. S. Co- domain embeddeding using deep quadruplet network for unseen traffic sign recognition。 0.88
arXiv preprint arXiv:1712.01907, 2017. arXiv preprint arXiv:1712.01907, 2017 0.80
5, 6, 8 Krizhevsky, A., Sutskever, I., and Hinton, G. E. Imagenet classification with deep convolutional neural networks. 5, 6, 8 Krizhevsky, A., Sutskever, I., and Hinton, G.E. 深い畳み込みニューラルネットワークを用いたイメージネット分類。 0.86
Communications of the ACM, 60(6):84–90, 2017. ACMの通信、60(6):84-90、2017。 0.78
1 LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. Gradientbased learning applied to document recognition. 1 LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P. Gradient based learning application to document recognition。 0.85
Proceedings of the IEEE, 86(11):2278–2324, 1998. IEEE 86(11):2278–2324, 1998 年。 0.73
8 Letessier, P., Buisson, O., and Joly, A. Scalable mining of small visual objects. 8 Letessier, P., Buisson, O., and Joly, A. Scalable mining of small visual objects。 0.86
In Proceedings of the 20th ACM international conference on Multimedia, pp. 第20回ACM国際会議のProceedings of the 20th ACM International Conference on Multimedia, pp。 0.69
599–608, 2012. 599–608, 2012. 0.84
4 Mishra, N., Rohaninejad, M., Chen, X., and Abbeel, P. A 4 Mishra, N., Rohaninejad, M., Chen, X., and Abbeel, P.A. 0.89
simple neural attentive meta-learner. 単純な神経の注意深いメタ学習者。 0.46
In ICLR, 2018. 2018年、ICLR。 0.62
8 Munkhdalai, T. and Yu, H. Meta networks. 8 Munkhdalai, T. and Yu, H. Meta Network 0.87
In ICML, 2017. 2017年、ICML。 0.70
8 Romberg, S., Pueyo, L. G., Lienhart, R., and Van Zwol, R. Scalable logo recognition in real-world images. 8 Romberg, S., Pueyo, L. G., Lienhart, R. and Van Zwol, R. Scalable logo recognition in real-world images。 0.91
In Proceedings of the 1st ACM International Conference on Multimedia Retrieval, pp. 第1回 ACM International Conference on Multimedia Retrieval, pp。 0.63
1–8, 2011. 1–8, 2011. 0.84
4 Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., et al. 4 Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., et al。 0.85
Imagenet large scale visual recognition challenge. Imagenet大規模な視覚認識の挑戦。 0.81
International journal of computer vision, 115(3): 211–252, 2015. international journal of computer vision, 115(3): 211–252, 2015年。 0.93
1 Shorten, C. and Khoshgoftaar, T. M. A survey on image data augmentation for deep learning. 1 Shorten, C. and Khoshgoftaar, T. M. ディープラーニングのための画像データ拡張に関する調査 0.82
Journal of Big Data, 6(1):60, 2019. Journal of Big Data, 6(1):60, 2019。 0.88
8 Simonyan, K. and Zisserman, A. 8 Simonyan、K.およびZisserman、A。 0.86
Very deep convolutional networks for large-scale image recognition. 大規模画像認識のための深層畳み込みネットワーク 0.78
arXiv preprint arXiv:1409.1556, 2014. arXiv preprint arXiv:1409.1556, 2014 0.80
1 Snell, J., Swersky, K., and Zemel, R. Prototypical networks 1 Snell, J., Swersky, K., and Zemel, R. Prototypical network 0.87
for few-shot learning. In NIPS, 2017. 数発学習に。 2017年、NIPS。 0.71
8 Stallkamp, J., Schlipsing, M., Salmen, J., and Igel, C. Man vs. computer: Benchmarking machine learning algorithms for traffic sign recognition. 8 Stallkamp, J., Schlipsing, M., Salmen, J., and Igel, C. Man vs. Computer: トラフィックサイン認識のためのベンチマーク機械学習アルゴリズム。 0.88
Neural networks, 32: 323–332, 2012. ニューラルネットワーク, 32: 323–332, 2012 0.80
4 Su, H., Zhu, X., and Gong, S. Deep learning logo detection with data expansion by synthesising context. 4 Su, H., Zhu, X., Gong, S. Deep Learning logo Detection with data expansion by synthesising context。 0.83
In 2017 IEEE winter conference on applications of computer vision (WACV), pp. コンピュータビジョン(WACV)の適用に関する2017 IEEE冬季会議、pp。 0.73
530–539. IEEE, 2017. 530–539. 2017年、IEEE。 0.67
4 Kim, J., Oh, T.-H., Lee, S., Pan, F., and Kweon, I. S. Variational prototyping-encoder: One-shot learning with prototypical images. 4 Kim, J., Oh, T.H., Lee, S., Pan, F., and Kweon, I.S. Variational prototyping-encoder: 原型画像によるワンショット学習。 0.87
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、pp。 0.72
9462– 9470, 2019. 9462– 9470, 2019. 0.99
3, 4, 5, 6, 8 3, 4, 5, 6, 8 0.85
Suter, R., Miladinovic, D., Schölkopf, B., and Bauer, S. Robustly disentangled causal mechanisms: Validating deep representations for interventional robustness. Suter, R., Miladinovic, D., Schölkopf, B., and Bauer, S. Robustly disentangled causal mechanism: 介入堅牢性の深い表現を検証する。 0.84
In International Conference on Machine Learning, pp. 英語) international conference on machine learning, pp. 0.80
6056– 6065. 6056– 6065. 0.94
PMLR, 2019. 2019年、PMLR。 0.72
4 4 0.85
英語(論文から抽出)日本語訳スコア
Sill-Net: Feature Augmentation with Separated Illumination Representation Sill-Net: 分離イルミネーション表現による特徴増強 0.68
Tabelini, L., Berriel, R., Paixão, T. M., De Souza, A. F., Badue, C., Sebe, N., and Oliveira-Santos, T. Deep traffic sign detection and recognition without target domain real images. Tabelini, L., Berriel, R., Paixão, T.M., De Souza, A.F., Badue, C., Sebe, N., and Oliveira-Santos, T. ターゲットドメインの実際の画像のないディープトラフィックサイン検出と認識。 0.87
arXiv preprint arXiv:2008.00962, 2020. arXiv preprint arXiv:2008.00962, 2020 0.81
5 Vinyals, O., Blundell, C., Lillicrap, T., Wierstra, D., et al. 5 Vinyals, O., Blundell, C., Lillicrap, T., Wierstra, D.など。 0.81
Matching networks for one shot learning. ワンショット学習のためのネットワークマッチング。 0.81
In NIPS, 2016. 2016年、NIPS。 0.76
8 Wang, Y., Huang, G., Song, S., Pan, X., Xia, Y., and Wu, C. Regularizing deep networks with semantic data augmentation. 8 Wang, Y., Huang, G., Song, S., Pan, X., Xia, Y., Wu, C. 意味的なデータ拡張でディープネットワークを正規化。 0.85
arXiv preprint arXiv:2007.10538, 2020. arXiv preprint arXiv:2007.10538, 2020 0.81
8 Xiao, T., Hong, J., and Ma, J. 8 Xiao、T.、ホン、J.およびMa、J。 0.81
Elegant: Exchanging latent encodings with gan for transferring multiple face attributes. Elegant: 複数の顔属性を転送するための gan で潜入エンコーディングを交換する。 0.63
In Proceedings of the European conference on computer vision (ECCV), pp. Proceedings of the European Conference on Computer Vision (ECCV), pp。 0.68
168–184, 2018. 168–184, 2018. 0.84
3 Zhang, H. and Yao, Q. Decoupling representation and arXiv preprint 3 Zhang, H. and Yao, Q. Decoupling representation and arXiv preprint 0.92
learning. classifier for noisy label arXiv:2011.08145, 2020. 学ぶこと。 雑音ラベル arXiv: 2011.08145, 2020 0.71
8 Zhang, H., Cisse, M., Dauphin, Y. N., and Lopez-Paz, D. mixup: Beyond empirical risk minimization. 8 Zhang, H., Cisse, M., Dauphin, Y. N., Lopez-Paz, D. mixup: 経験的リスク最小化を超えて。 0.83
arXiv preprint arXiv:1710.09412, 2017. arXiv preprint arXiv:1710.09412, 2017 0.79
3 Zheng, X., Chalasani, T., Ghosal, K., Lutz, S., and Smolic, A. Stada: Style transfer as data augmentation. 3 Zheng, X., Chalasani, T., Ghosal, K., Lutz, S., and Smolic, A. Stada: データ強化としてのスタイル転送。 0.88
arXiv preprint arXiv:1909.01056, 2019. arXiv preprint arXiv:1909.01056, 2019 0.81
8 Zhu, Z., Liang, D., Zhang, S., Huang, X., Li, B., and Hu, S. Traffic-sign detection and classification in the wild. 8 Zhu, Z., Liang, D., Zhang, S., Huang, X., Li, B., Hu, S. Traffic-signの検出と分類。
訳抜け防止モード: 8 Zhu, Z., Liang, D., Zhang, S. Huang, X., Li, B. and Hu, S. Traffic - 野生における標識の検出と分類。
0.89
In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. Proceedings of the IEEE conference on computer vision and pattern recognition, pp。 0.72
2110–2118, 2016. 2110–2118, 2016. 0.84
4 4 0.85
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。