# (参考訳) Efficient-CapsNet:セルフアテンションルーティングを備えたカプセルネットワーク [全文訳有]

Efficient-CapsNet: Capsule Network with Self-Attention Routing ( http://arxiv.org/abs/2101.12491v1 )

ライセンス: CC BY-SA 4.0
Vittorio Mazzia, Francesco Salvetti, Marcello Chiaberge(参考訳) アーキテクチャ設計戦略に支援されたディープ畳み込みニューラルネットワークは、オブジェクト変換を埋め込むために、多数の機能マップを持つデータ拡張技術とレイヤを広範囲に活用する。 これは非常に非効率であり、大きなデータセットの場合、特徴検出器の大規模な冗長性を意味する。 カプセルネットワークはまだ初期段階にあるが、現在の畳み込みネットワークを拡張し、より効率的に機能アフィン変換をエンコードするプロセスで人工視覚を付与する、有望なソリューションとなっている。 実際、適切に動作するカプセルネットワークは、新しい視点に一般化する本質的な能力により、かなり少ないパラメータ数で理論的により高い結果を得るべきである。 しかし、この点にはほとんど注意が払われていない。 本論文では,カプセルネットワークの効率性を検討し,その容量を極端に160Kパラメータの極限アーキテクチャに押し上げることにより,提案されたアーキテクチャが,元のCapsNetパラメータのわずか2%で3つの異なるデータセットにおける最先端の結果を達成できることを証明した。 さらに, カプセル数の減少に容易に対処できる新しい非イテレーティブな並列化可能なルーティングアルゴリズムを動的ルーティングに置き換えた。 他のカプセル実装との広範な実験は、私たちの方法論の有効性とカプセルネットワークが、より一般化しやすい視覚表現を効率的に埋め込む能力を示しています。

Deep convolutional neural networks, assisted by architectural design strategies, make extensive use of data augmentation techniques and layers with a high number of feature maps to embed object transformations. That is highly inefficient and for large datasets implies a massive redundancy of features detectors. Even though capsules networks are still in their infancy, they constitute a promising solution to extend current convolutional networks and endow artificial visual perception with a process to encode more efficiently all feature affine transformations. Indeed, a properly working capsule network should theoretically achieve higher results with a considerably lower number of parameters count due to intrinsic capability to generalize to novel viewpoints. Nevertheless, little attention has been given to this relevant aspect. In this paper, we investigate the efficiency of capsule networks and, pushing their capacity to the limits with an extreme architecture with barely 160K parameters, we prove that the proposed architecture is still able to achieve state-of-the-art results on three different datasets with only 2% of the original CapsNet parameters. Moreover, we replace dynamic routing with a novel non-iterative, highly parallelizable routing algorithm that can easily cope with a reduced number of capsules. Extensive experimentation with other capsule implementations has proved the effectiveness of our methodology and the capability of capsule networks to efficiently embed visual representations more prone to generalization.
公開日: Fri, 29 Jan 2021 09:56:44 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。


    Page: /      
SELF-ATTENTION ROUTING セルフアテンションルーティング 0.35
1 2 0 2 n a J 1 2 0 2 n a J 0.85
9 2 ] V C . 9 2 ] V C。 0.81
s c [ 1 v 1 9 4 2 1 sc [ 1 v 1 9 4 2 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
Department of Electronics and Telecommunications Department of Electronics and Telecommunications 電子・電気通信学科 電子・電気通信学科 0.76
Vittorio Mazzia Vittorio Mazzia 0.85
Politecnico di Torino Turin, Italy 10124 トリノ・トリノ・トリノの政治 10124年 0.44
vittorio.mazzia@poli to.it vittorio.mazzia@poli to.it 0.59
Francesco Salvetti フランチェスコ・サルヴェッティ 0.58
Politecnico di Torino Turin, Italy 10124 トリノ・トリノ・トリノの政治 10124年 0.44
francesco.salvetti@p olito.it francesco.salvetti@p olito.it 0.59
Department of Electronics and Telecommunications Marcello Chiaberge 電子・電気通信学科 マルチェロ・キアベルゲ 0.58
Politecnico di Torino Turin, Italy 10124 トリノ・トリノ・トリノの政治 10124年 0.44
marcello.chiaberge@p olito.it marcello.chiaberge@p olito.it 0.59
ABSTRACT Deep convolutional neural networks, assisted by architectural design strategies, make extensive use of data augmentation techniques and layers with a high number of feature maps to embed object transformations. ABSTRACT アーキテクチャ設計戦略に支援されたディープ畳み込みニューラルネットワークは、オブジェクト変換を埋め込むために、多数の機能マップを持つデータ拡張技術とレイヤを広範囲に活用する。 0.81
That is highly inefficient and for large datasets implies a massive redundancy of features detectors. これは非常に非効率であり、大きなデータセットの場合、特徴検出器の大規模な冗長性を意味する。 0.56
Even though capsules networks are still in their infancy, they constitute a promising solution to extend current convolutional networks and endow artificial visual perception with a process to encode more efficiently all feature affine transformations. カプセルネットワークはまだ初期段階にあるが、現在の畳み込みネットワークを拡張し、より効率的に機能アフィン変換をエンコードするプロセスで人工視覚を付与する、有望なソリューションとなっている。 0.67
Indeed, a properly working capsule network should theoretically achieve higher results with a considerably lower number of parameters count due to intrinsic capability to generalize to novel viewpoints. 実際、適切に動作するカプセルネットワークは、新しい視点に一般化する本質的な能力により、かなり少ないパラメータ数で理論的により高い結果を得るべきである。 0.61
Nevertheless, little attention has been given to this relevant aspect. しかし、この点にはほとんど注意が払われていない。 0.49
In this paper, we investigate the efficiency of capsule networks and, pushing their capacity to the limits with an extreme architecture with barely 160K parameters, we prove that the proposed architecture is still able to achieve state-of-the-art results on three different datasets with only 2% of the original CapsNet parameters. 本論文では,カプセルネットワークの効率性を検討し,その容量を極端に160Kパラメータの極限アーキテクチャに押し上げることにより,提案されたアーキテクチャが,元のCapsNetパラメータのわずか2%で3つの異なるデータセットにおける最先端の結果を達成できることを証明した。 0.84
Moreover, we replace dynamic routing with a novel non-iterative, highly parallelizable routing algorithm that can easily cope with a reduced number of capsules. さらに, カプセル数の減少に容易に対処できる新しい非イテレーティブな並列化可能なルーティングアルゴリズムを動的ルーティングに置き換えた。 0.73
Extensive experimentation with other capsule implementations has proved the effectiveness of our methodology and the capability of capsule networks to efficiently embed visual representations more prone to generalization. 他のカプセル実装との広範な実験は、私たちの方法論の有効性とカプセルネットワークが、より一般化しやすい視覚表現を効率的に埋め込む能力を示しています。 0.62
1 Introduction In the last decade, convolutional neural networks (CNN) drastically changed artificial visual perception, achieving remarkable results in all core fields of computer vision, from image classification [1, 2, 3] to object detection [4, 5, 6] and instance segmentation [7]. 1 はじめに 過去10年間で、畳み込みニューラルネットワーク(CNN)は、画像分類 [1, 2, 3] からオブジェクト検出 [4, 5, 6] とインスタンスセグメンテーション [7] に至るまで、コンピュータビジョンのすべてのコア分野において、目覚ましい結果をもたらす、人工的な視覚知覚を大きく変えた。 0.72
In contrast to other deep neural architectures, the main characteristic of a CNN is its capability to efficiently replicate the same knowledge at all locations in the spatial dimension of an input image. 他のディープニューラルネットワークアーキテクチャとは対照的に、CNNの主な特徴は、入力画像の空間次元内のすべての場所で同じ知識を効率的に複製する能力である。 0.76
Indeed, using translated replicas of learned feature detectors, features learned at one spatial location are available at other locations. 実際、学習された特徴検出器の複製を使用して、ある空間で学習された特徴は他の場所で利用可能である。 0.60
Local shared connectivity coupled with spatial reduction layers, such as max-pooling, extract local translation-invarian t features. ローカル共有接続は、最大プールなどの空間還元層と結合し、ローカル翻訳不変の特徴を抽出します。 0.56
So, as shown in Figure 1, object translations in the input space do not affect activations of high-level neurons, because max-pooling layers are able to rout low-level features between the layers. したがって、図1に示すように、入力空間におけるオブジェクト翻訳は、最大プーリング層が層間の低レベル特徴を引き出すことができるため、高レベルニューロンの活性化に影響を与えない。 0.74
Nevertheless, translation invariance achieved by CNN comes at the expense of losing the precise encoding of objects location. それでも、CNNが達成した翻訳不変性は、オブジェクト位置の正確なエンコーディングを失うことを犠牲にしている。 0.58
Moreover, CNNs are not invariant to all other affine transformations. さらに、CNNは他の全てのアフィン変換に不変ではない。 0.55
Figure 1: Compressed representation of a simple CNN with max-pooling layers for spatial reduction and two input objects obtained with a plain spatial translation. 図1:空間縮小のための最大プール層と平易な空間変換で得られる2つの入力オブジェクトを持つ単純なcnnの圧縮表現。 0.74
Max-pooling operations are schematized in such a way that their primitive routing role is highlighted for both digits. 最大プール操作は、そのプリミティブなルーティングロールが両方の桁で強調されるようにスキーマ化される。 0.63
Low-level features detected in the earlier stage of the network are progressively routed to common high-level features. ネットワークの初期段階で検出された低レベル特徴は、徐々に一般的な高レベル特徴にルーティングされる。 0.67
So, the model is translation invariant but gradually loses relevant object localization information. したがって、モデルは変換不変であるが、対象のローカライゼーション情報が徐々に失われる。 0.59
During the years, different techniques have been developed to counterbalance that problem. 長年にわたり、この問題に逆らうために様々な技術が開発されてきた。 0.56
Most of the adopted common solutions make use of an increased number of feature maps in such a way that the network is endowed with enough feature detectors for all additional transformations. 採用されている一般的なソリューションのほとんどは、追加の変換に十分な機能検出器をネットワークに与えるように、機能マップの数を増やしている。 0.73
Data augmentation techniques are used to produce the different pose to be learned, and residual connections and normalization techniques allow to enlarge networks filter capacity. データ拡張技術は学習すべき異なるポーズを生成するために使われ、残差接続と正規化技術はネットワークのフィルタ容量を拡大することができる。 0.75
However, all those additional mechanisms only partially make up for the intrinsic limitations of CNN, preventing the model from recognising different transformations of the same objects encountered during training. しかし、これらの追加メカニズムはすべてCNNの本質的な制限を部分的に補い、トレーニング中に遭遇した同じオブジェクトの異なる変換をモデルが認識することを防ぎます。 0.67
Indeed, CNNs trained on large datasets have a massive redundancy of features detectors and difficulties to scale to thousands of objects with their respective viewpoints. 実際、大規模なデータセットでトレーニングされたCNNは、機能検出の膨大な冗長性を持ち、それぞれの視点で数千のオブジェクトにスケールすることが困難である。 0.60
Hinton et al. [8] proposed to make neurons cooperate in a new form of unit, dubbed capsules, where individual activations inside them do not represent the presence of a specific feature but different properties of the same entity anymore. Hintonら。 ニューロンをカプセルと呼ばれる新しい形態のユニットに協調させる[8]提案では、内部の個々の活性化は、特定の特徴の存在ではなく、同じ実体の異なる性質をもはや表さない。 0.67
In their paper they showed that groups of neurons, if properly trained, are able to produce a whole vector of numbers, explicitly representing the pose of the detected entity as in classical hand-engineered features[9]. 彼らの論文では、適切に訓練されたニューロン群は、検出された実体の姿勢を明示的に表して、数字のベクトル全体を生成できることを示した[9]。 0.65
After six years, Sabour et al. 6年後、Sabour et al。 0.55
[10] presented a first architecture, named CapsNet, that introduced capsules inside a CNN. 10]は、CNN内にカプセルを導入した最初のアーキテクチャであるCapsNetを紹介した。 0.69
The major insight of the paper is that viewpoint changes have complicated effects on the pixel space, but simple linear effects on the pose that represents the relationship between an object-part and the whole. この論文の主な洞察は、視点の変化は画素空間に複雑な影響を与えるが、対象部分と全体との関係を表すポーズに単純な線形効果を与えるということである。 0.84
In a generic fully-connected or convolutional deep neural network, weights are used to encode feature detectors and neuron activations to represent the presence of a specific feature. 一般的な完全接続または畳み込みニューラルネットワークでは、ウェイトを使用して特徴検出器とニューロンの活性化をエンコードし、特定の特徴の存在を表します。 0.68
So, fixing weights after training, the model is not able to detect simple transformation patterns not encountered during training. したがって、トレーニング後に重みを固定すると、モデルはトレーニング中に遭遇しない単純な変換パターンを検出することができない。
訳抜け防止モード: トレーニング後に重みを固定すると モデルでは 訓練中に遭遇しない簡単な変換パターンを検出する。
On the other hand, they suggested repurposing weights to embed relationships between object features. 一方で、オブジェクトの特徴間の関係を埋め込むために重みを再利用することを提案している。 0.62
Indeed, being intrinsic transformation between parts and a whole invariant to the viewpoint, weights are perfectly fitted to represent them efficiently, and they should be automatically capable of generalizing to novel viewpoints. 実際、部品間の内在的な変換と全体から視点への不変性から、重みはそれらを効率的に表現するために完全に適合しており、それらは自動的に新しい視点に一般化できるべきである。 0.61
Moreover, we do not want anymore to achieve activations invariant to transformations, but groups of neurons working in synergy to represent different properties of the same entity. さらに、我々はもはや変換に不変な活性化を達成したくないが、同じエンティティの異なる特性を表現するためにシナジーで働くニューロンのグループ。 0.72
Capsules are vector representations of features, and they are equivariant to viewpoint transformation. カプセルは特徴のベクトル表現であり、視点変換と等価である。 0.65
So, each capsule not only represents a specific type of entity but also dynamically describes how the entity is instantiated. したがって、各カプセルは特定のタイプのエンティティを表すだけでなく、エンティティのインスタンス化方法も動的に記述します。 0.65
Finally, the working principle of traditional networks, in which a scalar unit is activated based on the matching score with learned feature detectors, is dropped altogether favouring a much more robust mechanism. 最後に、学習された特徴検出器とのマッチングスコアに基づいてスカラーユニットが活性化される従来のネットワークの動作原理は、はるかに堅牢なメカニズムを支持する完全に落とされます。 0.71
Indeed, with viewpoint invariant transformations encoded in the weights, we can make capsules predict the whole that they should be part of. 実際、重量にエンコードされた視点不変の変換によって、カプセルはそれらの一部となるべき全体を予測することができる。 0.66
So, we can consider predictions accordance of low-level capsules to activate high-level capsules. したがって、低レベルカプセルの予測を考慮すれば、高レベルカプセルを活性化できます。 0.58
That requires a process to measure their agreement and route capsules to their best match parent. それは彼らの合意を測定し、最高のマッチ親にカプセルをルーティングするプロセスが必要です。 0.62
Originally, dynamic routing was proposed as the first routing-by-agreement mechanism. 当初、動的ルーティングは最初のルーティング・バイ・アグリーメントメカニズムとして提案された。 0.53
Exploiting groups of neuron activations to make predictions and assess their reciprocal agreement is a much more effective way to capture covariance and should lead to models with a considerably reduced number of parameters and far better generalization capabilities. ニューロンの活性化のグループを利用して予測を行い、相互合意を評価することは、共分散を捉えるためのより効果的な方法であり、パラメータの数を大幅に削減し、はるかに優れた一般化能力を持つモデルに繋がるべきである。
訳抜け防止モード: ニューロン活性化の爆発的グループによる予測と相互一致の評価 共分散を捉えるのに はるかに効果的な方法であり パラメータが大幅に減少するモデルに はるかに優れた一般化能力です
Nevertheless, little attention has been given to the efficiency aspect of capsule networks and their intrinsic capability to represent knowledge object transformations better. しかしながら、カプセルネットワークの効率性や、知識オブジェクト変換をより良く表現する本質的な能力にはほとんど注意が払われていない。 0.66
Indeed, all model solutions presented so far account for a large number of parameters that inevitably hide the intrinsic generalization capability that capsules should provide. 実際、これまで提示されたすべてのモデルソリューションは、カプセルが提供すべき本質的な一般化能力を必然的に隠す多数のパラメータを占めています。 0.62
In this paper, we propose Efficient-CapsNet, an extreme architecture with barely 160K parameters and a 85% TOPs improvement upon the original CapsNet model that is perfectly capable of achieving state-of-the-art results on 本稿では,Efficient-CapsNetを提案する。Efficient-CapsNetは,160Kパラメータがほとんどなく,オリジナルのCapsNetモデル上で85%のTOPs改善を実現した極端なアーキテクチャである。 0.77
2 Conv2DMax-PoolingxyD igit three 2 Conv2DMax-PoolingxyD igit 3 0.67
three distinct datasets, maintaining all important aspects of capsule networks. 3つの異なるデータセット、カプセルネットワークのすべての重要な側面を維持する。 0.57
With extensive experimentation with traditional CNNs and other capsule implementations, we proved the effectiveness of our methodology and the important contribution lead by capsules inside a network. 従来のcnnや他のカプセル実装を広範囲に実験した結果,提案手法の有効性と,ネットワーク内のカプセルによる重要な貢献が証明された。 0.69
Moreover, we propose a novel non-iterative, routing algorithm that can easily cope with a reduced number of capsules exploiting a self-attention mechanism. さらに, セルフアテンション機構を応用したカプセル数の削減に容易に対応できる, 新規な非反復ルーティングアルゴリズムを提案する。 0.74
Indeed, attention, as also max-pooling layers, can be seen as a way to route information inside a network. 実際、注意は、最大プール層と同様に、ネットワーク内の情報をルーティングする方法と見なすことができる。 0.74
Our proposed solution exploits similarities between low-level capsules to cluster and routs them to more promising high-level capsules. 提案するソリューションは,低レベルカプセルとクラスターの類似性を活用し,より有望な高レベルカプセルに出力する。 0.57
Overall, the main contribution of our work lies in: 全体的に、私たちの仕事の主な貢献は次のとおりです。 0.62
• Deep investigation of the generalization power of networks based on capsules, drastically reducing the number •カプセルに基づくネットワークの一般化力の深化調査により、数を大幅に削減。 0.82
of trainable parameters compared to previous literature research studies. 学習可能なパラメーターを 過去の文献研究と比較します 0.69
• The Conceptualization and development of an efficient, highly replicable, deep learning neural network based •効率的かつ高度に複製可能なディープラーニングニューラルネットワークの概念化と開発 0.76
on capsules able to reach state-of-the-art results on three distinct datasets. 3つの異なるデータセットで最新の結果を得ることができるカプセルに。 0.50
• The introduction of a novel non-iterative, highly parallelizable routing algorithm that exploits a self-attention •自己注意を生かした新規な非定常並列化可能なルーティングアルゴリズムの導入 0.72
mechanism to route a reduced number of capsules efficiently. カプセルの減らされた数を効率的に回すメカニズム。 0.68
All of our training and testing code are open source and publicly available1. トレーニングコードとテストコードはすべてオープンソースで公開されています。 0.74
The remainder of this paper is structured as follows. 本論文の残りは次のように構成されている。 0.63
Section II covers the related work on capsule networks, their developments in the latest years and practical applications. 第2章では、カプセルネットワークに関する作業、近年の開発、および実用的なアプリケーションについて説明します。 0.57
Section III provides a comprehensive overview of the methodology, network architecture and its routing algorithm. セクションIIIは、方法論、ネットワークアーキテクチャ、およびルーティングアルゴリズムの包括的な概要を提供します。 0.72
Section IV discusses the experimentation and results with three datasets, MNIST, smallNorb and MultiMNIST. 第4節では、MNIST、smallNorb、MultiMNISTの3つのデータセットで実験と結果について議論する。 0.56
Moreover, it provides an introspect analysis of the inner operation of capsules inside a network. さらに、それはネットワーク内のカプセルの内部操作の内観分析を提供します。 0.77
Finally, section V draws some conclusions and future directions. 最後に、セクションVはいくつかの結論と将来の方向性を描きます。 0.53
2 Related Works As already devised in the introduction to this paper, introducing a vectorial organization of neurons to encapsulate both probability and instantiation parameters of a detected feature was first proposed by Hinton et al. 関連作品2件 本論文の紹介ですでに考案されているように、検出された特徴の確率とインスタンス化パラメータの両方をカプセル化するニューロンのベクトル構造の導入は、Hintonらによって最初に提案された。 0.71
[8] introducing the new concept of capsules. 8] カプセルの新しい概念を紹介します。 0.75
Sabour et al. Sabour et al. 0.85
[10] proposed the first CNN able to incorporate two layers of capsules, called CapsNet, and introduced the routing-by-agreement concept, with their dynamic routing. 10]はcapsnetと呼ばれるカプセルの2層を組み込むことができる最初のcnnを提案し、ダイナミックなルーティングでルーティング・バイ・アグリーメントの概念を導入した。 0.68
Several researchers have then investigated the routing process, proposing alternative ways to measure accordance between low-lever capsules in activating high-level ones. その後、何人かの研究者がルーティングプロセスを調査し、高レベルなカプセルを活性化する際の低レベルカプセル間の適合性を測定する方法を提案した。 0.47
Xi et al. [11] proposed a variant to the squash activation function used in the original CapsNet. Xiなど。 11]は、オリジナルのCapsNetで使用されるスカッシュアクティベーション関数の変種を提案した。 0.63
Wang et al. [12] gave a formal description of the original dynamic routing as an optimization problem that minimizes clustering loss and proposes a slightly modified version. 王等。 12]はクラスタリング損失を最小限に抑える最適化問題として,元の動的ルーティングを形式的に記述し,わずかに修正したバージョンを提案する。 0.63
Lenssen et al. [13] proposed group capsule networks, claiming they preserve equivariance for the output pose and invariance for activations. Lenssenら。 13] 提案するグループカプセルネットワークは, 出力ポーズの等価性と活性化の不変性を維持している。 0.62
The same authors of the original CapsNet adapted the Expectation-Maximiza tion algorithm to cluster similar votes, and route predictions [14]. オリジナルのCapsNetの同じ著者は、同様の投票をクラスタ化するためにExpectation-Maximiza tionアルゴリズムを採用し、ルート予測[14]。 0.67
Spectral capsule network [15] was based on this last work, and modified routing basing it on Singular Value Decomposition of votes from the previous layers. スペクトルカプセルネットワーク[15]はこの最後の作業に基づいており、以前の層からの投票の特異値分解に基づいてルーティングを変更しました。 0.71
Ribeiro et al. [16] proposed a routing derived from Variational Bayes for fitting a gaussian mixture model. Ribeiroら。 16] ガウス混合モデルに適合する変分ベイズから導出した経路を提案した。 0.66
Gu et al. [17] focused on making capsule networks robust to affine transformations by sharing transformation matrices between all low-level capsules and each high-level ones. と言いました。 [17] ローレベルカプセルと各高レベルカプセル間の変換行列の共有によるアフィン変換に対するカプセルネットワークの堅牢化に着目した。 0.46
Paik et al. [18] put in discussion the effectiveness of the routing algorithm presented so far, claiming that better results can be obtained with no routing at all. など。 18] これまでに提示したルーティングアルゴリズムの有効性を議論し、ルーティングを全く行わずにより良い結果が得られると主張した。 0.46
On the other hand, Venkataraman et al. 一方、Venkataramanらもそうである。 0.51
[19] proved that routing-by-agreement mechanism is essential to ensure compositional structures of capsule-based networks. 19]は,カプセル型ネットワークの構成構造を確保するためには,経路分割機構が不可欠であることを証明した。 0.57
Byerly et al. Byerly et al. 0.85
[20], instead, proposed a new architecture based on a variation of the original capsule idea, named Homogeneous Filter Capsules, and with no routing between layers. 代わりに[20]は、同質フィルタカプセルと呼ばれる元のカプセルのアイデアのバリエーションに基づいて、レイヤー間のルーティングのない新しいアーキテクチャを提案しました。 0.74
The attention mechanism allows to dynamically give more importance to particular features that are considered more relevant for the problem under analysis. アテンション機構は、分析中の問題により関連があると考えられる特定の特徴を動的により重要視することを可能にする。
訳抜け防止モード: 注意の仕組みは 解析中の問題により関連があると考えられる特定の特徴を動的により重要視すること。
Such an idea gained great popularity in a number of Deep Learning applications and have been implemented in natural language processing [21, 22] or computer vision [23, 24, 3, 25, 26]. このようなアイデアは、多くのディープラーニングアプリケーションで大きな人気を獲得し、自然言語処理 [21, 22] またはコンピュータビジョン [23, 24, 3, 25, 26] で実装されています。 0.79
Choi et al. Choi et al. 0.85
[27] applied the attention mechanism to capsule routing with a feed-forward operation with no iterations. 27]は、繰り返しのないフィードフォワード操作でカプセルルーティングに注意メカニズムを適用しました。 0.79
However, they selected low-level capsules by multiplying their activations to a parameter vector learnt with backpropagation, and they did not measure agreement. しかし、彼らはバックプロパゲーションで学習したパラメータベクトルに活性化を乗じて低レベルカプセルを選択し、一致を測らなかった。 0.67
In this way, the original idea of routing-by-agreement is drastically modified. このように、ルーティング・バイ・アグリーメントの当初の考え方は劇的に変更される。 0.48
Tsai et al. [28] slightly changed the original dynamic routing to compute the agreement between a pose of a high-level capsule and the votes of the low-level capsules by an inverted dot-product mechanism. と言いました。 高位カプセルのポーズと低位カプセルの投票との一致を逆ドット生成機構で計算するため、[28]は元の動的ルーティングをわずかに変更した。 0.46
They proposed a concurrent iterative routing instead of a sequential one, performing the routing procedure simultaneously on all the capsule layer. 彼らはシーケンシャルではなく同時反復的なルーティングを提案し、すべてのカプセル層で同時にルーティング手順を実行した。 0.66
Huang et al. Huang et al。 0.81
[29] proposed a dual attention mechanism by adapting the squeeze-and-excitati on block [3] to both Primary and Digit Caps, together with a change in the squash activation function. [29] は, スクワッシュ活性化関数の変化とともに, 圧縮励起ブロック[3] をプライマリキャップとディジキャップの両方に適応させることにより, 二重注意機構を提案した。
訳抜け防止モード: [29 ]圧縮を適応させることによる二重注意機構の提案- excitation block [ 3 ] to both primary and Digit Caps, スカッシュアクティベーション関数の変更とともに。
Capsule-based networks have also been recently used for a variety of applications. カプセルベースのネットワークも、最近様々なアプリケーションに使われている。 0.72
For example, they have been applied with GANs for image generation[30], for natural language processing[31, 32, 33], computer vision[34, 35, 36] or medicine[37, 38]. 例えば、画像生成[30]、自然言語処理[31, 32, 33]、コンピュータビジョン[34, 35, 36]、医学[37, 38]などに適用されています。 0.62
1https://github.com/ EscVM/Efficient-CapsNet 1https://github.com/ EscVM/Efficient-Caps Net 0.31
3 3 0.85
Figure 2: Schematic representation of the overall architecture of Efficient-CapsNet. 図2: 効率的なCapsNetのアーキテクチャ全体のスキーマ表現。 0.77
Primary capsules make use of depthwise separable convolution to create a vectorial representation of the features they represent. 一次カプセルは奥行き分離可能な畳み込みを用いて、それらが表現する特徴のベクトル表現を作成する。
訳抜け防止モード: 一次カプセルは奥行き分離可能な畳み込みを利用する 表現する特徴のベクトル表現を作成する。
On the other hand, the first stack of convolutional layers maps the input tensor onto a higher-dimensional space, facilitating capsules creation. 一方、第1の畳み込み層は、入力テンソルを高次元空間にマッピングし、カプセルの生成を容易にする。 0.63
3 Methods 3.1 Efficient-CapsNet 3つの方法 3.1 Efficient-CapsNet 0.57
The overall architecture of Efficient-CapsNet is depicted in Figure 2. Efficient-CapsNetの全体的なアーキテクチャを図2に示します。 0.73
As a high-level description, the network can be broadly divided into three different parts in which the first two are the main instruments of the primary capsule layer to interact with the input space. 高レベルの説明として、ネットワークは3つの異なる部分に広く分割することができ、最初の2つは入力空間と相互作用する一次カプセル層の主要な器具である。 0.74
Indeed, each capsule exploits the below convolutional layer filters to convert pixel intensities into a vectorial representation of the feature it acts for. 実際、各カプセルは下記の畳み込み層フィルターを利用して、ピクセルの強度をそれが作用する特徴のベクトル表現に変換する。 0.73
So, the activities of neurons within an active capsule embody the various properties of the entity it learnt to represent during the training process. そのため、アクティブカプセル内のニューロンの活動は、トレーニングプロセス中に学習した実体の様々な特性を具現化している。 0.82
As stated in Sabour et al. Sabour et al に記載されている。 0.70
[10], these properties can include many different types of instantiation parameter such as pose, texture, deformation, and among those the existence of the feature itself. 10] これらの特性には、ポーズ、テクスチャ、変形、および機能自体の存在など、多くの異なるタイプのインスタンス化パラメータを含めることができます。 0.79
In our implementation, the length of each vector is used to represent the probability that the entity represented by a capsule is present. 本実装では、カプセルで表される実体が存在する確率を表すために、各ベクトルの長さを使用します。 0.72
That is compatible with our self-attention routing algorithm that does not require any sensible objective function minimization. これは、賢明な目的関数の最小化を必要としないセルフアテンションルーティングアルゴリズムと互換性がある。 0.70
Moreover, it makes biological sense as it does not use large activities to represent absent entities. また、欠落体を表すために大きな活動を使用しないため、生物学的に理にかなっている。
訳抜け防止モード: さらに 生物学的な意味合いも 存在しないエンティティを表すために大きなアクティビティを使用しません。
Finally, the last part of the network operates under the self-attention algorithm to rout low-level capsules to the whole they represent. 最後に、ネットワークの最後の部分は自己認識アルゴリズムの下で動作し、低レベルのカプセルをそれらが表す全体へ引き出す。 0.64
More formally, in the case of a single instance (i), the model takes as input an image that can be represented as a tensor X with a shape H × W × F where H, W and C are the height, width, and channels/features of the single input image. より形式的には、単一インスタンス (i) の場合、モデルは、h, w, c が1つの入力画像の高さ、幅、チャネル/特徴であるような形 h × w × f のテンソル x として表現できる画像を入力として取る。 0.75
Before entering the primary caps layer, we extract local features from the input image X by means of プライマリキャップ層を入力する前に、入力画像Xから局所的な特徴を抽出します。 0.77
4 Input TensorConv2DDepthwis eConv2DSelf-Attentio nPrimary Capsule 4 入力TensorConv2DDepthwis eConv2DSelf-Attentio nPrimary Capsule 0.65
Figure 3: The first part of the network can be modelled as single-function HConv that maps the input image onto a higher-dimensional space. 図3: ネットワークの最初の部分は、入力イメージを高次元空間にマッピングする単一機能 HConv としてモデル化することができる。 0.82
Then, the primary capsule layer Sl n,d is obtained with a depthwise separable convolution that greatly reduces the number of parameters needed for the capsules creation. そして、一次カプセル層Sln,dは、カプセル生成に必要なパラメータの数を大幅に削減する深さ方向に分離可能な畳み込みによって得られる。 0.60
a set of convolutional and Batch Normalization layers [39]. 畳み込みおよびバッチ正規化層の集合 [39]。 0.64
Each output of a convolution layer l is constituted by a convolutional operation with a certain kernel dimension k, number of feature maps f, stride s = 1 and ReLU as activation function: 畳み込み層 l の各出力は、特定のカーネル次元 k, 特徴写像の数 f, stride s = 1, ReLU を活性化関数とする畳み込み演算によって構成される。 0.82
(cid:16) (cid:17) (cid:16) (cid:17) 0.78
Fl+1(Xl) = ReLU Fl+1(Xl) = ReLU 0.92
Convk×k(Xl) Convk×k(Xl) 0.85
(1) Overall, the first convolutional part of the network can be modelled as a single function HConv that maps the input image onto a higher dimensional space that facilitates the capsule creation. (1) 全体として、ネットワークの最初の畳み込み部分は、入力イメージをカプセル生成を容易にする高次元空間にマッピングする単一の関数 HConv としてモデル化することができる。 0.82
On the other hand, the second part of the network is the main instrument used by primary capsules to create a vectorial representation of the features they represent. 一方、ネットワークの第2部は、プライマリカプセルが表現する特徴のベクトル表現を作成するために使用するメインの機器である。 0.67
As depicted in Figure 3, it is a depthwise separable convolution with linear activation that performs just the first step of a depthwise spatial convolution operation, acting separately on each channel. 図3に示すように、線形活性化を伴う深度分離可能な畳み込みであり、各チャネルで個別に作用する深度空間畳み込み演算の第1ステップのみを実行する。 0.80
Moreover, imposing a kernel dimension k × k and a number of filters f equal to the output dimensions H × W and F of the HConv function, it is possible to obtain the primary capsule layer Sl n,d where nl and dl are the number of primary capsules and their individual dimension of the l − th layer, respectively. また、HConv関数の出力寸法H×WとFと等しいカーネル次元k×kとフィルタfの数を付与することにより、nlとdlがプライマリカプセルの数であり、l−th層の個々の寸法であるプライマリカプセル層Sln,dを得ることができる。 0.59
The depthwise separable convolution is an efficient operation that greatly simplifies and reduces the number of parameters required for the capsule creation process. 深度分離可能な畳み込みは、カプセル作成プロセスに必要なパラメータの数を大幅に簡素化し、削減する効率的な操作です。 0.74
We leave it to discriminative learning to make good use of its filters to smartly extract all capsule properties. すべてのカプセル特性をスマートに抽出するために、そのフィルターをうまく活用するために、識別学習に任せます。 0.64
After that operation, location information is not anymore "place-coded" but "rate-coded" in the properties of the capsules. その後、位置情報はもはやカプセルの特性において「位置コード」ではなく「レートコード」となる。 0.71
So, the base element of the network is not anymore a single neuron but a vector-output capsule. したがって、ネットワークの基本要素はもはや単一ニューロンではなく、ベクトル出力カプセルである。 0.72
Indeed, the first operation applied to the primary capsule layer is a capsule-wise activation function. 実際、第一カプセル層に適用される最初の操作はカプセルワイド・アクティベーション機能である。 0.71
In order to encode the probability that a certain entity exists with the length of vectors and let active capsules make predictions for the instantiation parameters of higher-level capsules, two important properties should be satisfied by the activation function; it should preserve a vector orientation and maintain the length between zero and one. ある実体がベクトルの長さで存在する確率を符号化し、活性カプセルがより高いレベルのカプセルのインスタンス化パラメータの予測を行うようにするために、活性化関数によって2つの重要な特性が満たされるべきである。 0.69
Efficient-CapsNet makes use of a variant of the original activation function, dubbed squash operation: Efficient-CapsNetは、squash操作と呼ばれる元のアクティベーション関数の変種を利用する。 0.75
(cid:18) 1 − 1 n|| e||sl (cid:18) 1 − 1 n|| e|sl 0.74
(cid:19) sl (cid:19) sl 0.84
n||sl n|| (2) n ∈ Rdl. n|sl n|| (2) n ∈ rdl である。 0.67
The capsule-wise where we refer to a single capsule as sl squash function of Eq. カプセル単位では、1つのカプセルをeqのslスクラッシュ関数(sl squash function)と呼ぶ。
訳抜け防止モード: カプセル - 賢明な場所 一つのカプセルを Eq の sl スカッシュ関数と呼ぶ。
(2), satisfies the required two properties and is much more sensitive to small changes near zero, providing a boost to the gradient during the training phase [11]. 2) 要求される2つの特性を満たし, ゼロに近い小さな変化に対してより敏感であり, トレーニングフェーズ [11] の勾配を増加させる。 0.80
So, after the squash activation we obtain a new matrix Ul n,d with all nl entries ul n, but with a length "squashed" between zero and one. したがって、スカッシュアクティベーションの後、すべての nl エントリ ul n を持つ新しい行列 Ul n,d を得るが、0 と 1 の間の長さは "squashed" である。 0.79
Indeed the non-linearity ensure that short vectors get shrunk to almost zero length and long vectors get shrunk to a length slightly below one. 実際、非線形性は、短いベクトルがほぼゼロの長さに縮まり、長いベクトルが1より少し下まで縮まることを保証している。 0.73
n with the same dimensionality and properties of sl sl の次元と性質が同じ n について 0.83
n, which are the individual entries nl of Sl n は、Sl の個々のエントリ nl です。 0.80
1 with sl squash(sl 1 は sl で squash (複数形 squashs) 0.67
n) = (n,:) Self-Attention routing n) = (n:) セルフアテンションルーティング 0.70
In order to rout active capsules to the whole they belong, we make use of our self-attention routing algorithm. アクティブなカプセルが属する全体にルーティングするために、私たちは自己アテンションルーティングアルゴリズムを利用します。 0.73
As shown in Figure 4, despite the additional dimension, the overall architecture is very similar to a fully-connected network with an additional branch brought by the self-attention algorithm. 図4に示すように、全体的なアーキテクチャは、追加の次元にもかかわらず、セルフアテンションアルゴリズムによってもたらされた追加のブランチを持つ完全接続ネットワークと非常に似ている。 0.66
Indeed, the total input of a capsule in the above layer, sl+1 n in the layer below. 実際、上層のカプセルの総入力は、下の層の sl+1 n である。 0.62
That is produced by a matrix multiplication of each capsule, ul n,d, for a weight matrix. これは、重量行列に対する各カプセルの行列積 ul n,d によって生成される。 0.71
Intuitively, the whole tensor 直感的には、テンソル全体 0.52
n , is a weighted sum over all "prediction vectors" from the capsules ul n はカプセル ul からの全ての「予測ベクトル」上の重み付き和である 0.80
n, belonging to Ul n0 := {Sl 1sl n、Ulに属する n0 := {Sl 1sl 0.76
n,d|nl = nl 0} n,d|nl = nl 0} 0.94
5 5 0.85
Figure 4: Capsules of the layer l − th make predictions of the whole they could be part of. 図4: 層 l − th のカプセルは、それらの一部となる可能性のある全体を予測する。 0.72
All predictions obtained with the weight tensor Wl nl,nl+1,dl+1 that is subsequently used in conjunction with the priors Bl 重みテンソルWl nl,nl+1,dl+1で得られるすべての予測は、その後先行Blと共に用いられる。 0.69
nl,nl+1,dl,dl+1 are collected in ˆUl nl,nl+1,dl,dl+1はUlで収集される 0.72
nl,nl+1 matrices to obtain all capsules sl+1 すべてのカプセル sl+1 を得る nl,nl+1 行列 0.63
nl,nl+1 and coupling coefficients Cl nl,nl+1および結合係数Cl 0.86
of layer l + 1. 層 l + 1 について 0.74
n nl,nl+1,dl,dl+1 that contains all weight matrices, embeds all affine transformation between capsule of two adjacent n すべての重量行列を含むnl,nl+1,dl,dl+1は、隣接する2つのカプセル間の全てのアフィン変換を埋め込む 0.74
Wl layers. So, each capsule of the layer l, in order to make its projections for the layer above, follows Eq. Wl層。 したがって、層 l の各カプセルは、上の層に対してその投影を行うために、Eq に従っている。 0.69
3 (3) nl,nl+1,dl+1 contains all predictions of l − th capsules. 3 (3) nl,nl+1,dl+1 は l − th カプセルのすべての予測を含む。 0.79
Indeed, each nl capsule, by means of the weight matrix, 実際、各nlカプセルは重み行列によって構成される。 0.58
where ˆUl predicts the properties of all nl+1 capsules. シュールは全ての nl+1 カプセルの性質を予測する。 0.66
Indeed, capsules of the above layer, sl+1 実際、上の層のカプセル、sl+1 0.68
n , can be computed with Eq. n は、Eq で計算できます。 0.78
4 (nl,nl+1,:,:) 4 (nl,nl+1,:,:) 0.76
ˆUl (nl,nl+1,:) = uTl Ul (nl,nl+1,:) = uTl 0.72
n × Wl (:,nl+1,:) ×(cid:16) n × Wl (:,nl+1,:) ×(cid:16) 0.92
n = ˆUTl sl+1 n = ジウテル sl+1 0.81
Cl (:,nl+1) + Bl Cl (:,nl+1) + Bl 0.96
(:,nl+1) (cid:17) (nl+1) (cid:17) 0.80
where Bl nl,nl+1 is the log priors matrix containing all weights discriminatively learnt at the same time as all the other weights. Bl nl,nl+1 は全ての重みを含むログ先行行列であり、他の重みと同時に識別的に学習する。 0.75
On the other hand, Cl nl,nl+1 is the matrix containing all coupling coefficients produced by the self-attention algorithm. 一方、Clnl,nl+1 は自己アテンションアルゴリズムによって生成されるすべての結合係数を含む行列である。 0.77
So, the priors help to create biases towards more linked capsules and the self-attention routing dynamically assigns detected shapes to the whole they represent in the specific (i) instance taken into account. したがって、前者はより連結されたカプセルに対するバイアスを生み出すのに役立ち、自己アテンションルーティングは、検出された形状を、特定の(i)インスタンスが考慮した全体に対して動的に割り当てる。 0.56
The coupling coefficients are computed starting from the self-attention tensor Al 結合係数は自己拘束テンソルalから計算される 0.65
nl,nl,nl+1 using Eq. eqを使用するnl,nl,nl+1。 0.74
5 (4) (5) which contains a symmetric matrix Al dl stabilizes training and helps maintaining a balance between coupling coefficients and log priors. 5 (4) (5) 対称行列 al dl はトレーニングを安定化させ、結合係数とログプライオリティのバランスを維持するのに役立つ。 0.81
Each self-attention matrix contains the score agreement for each combination of the nl capsules predictions, and so, they can be used to compute all coupling coefficients. 各自己アテンション行列は、nlカプセル予測の各組み合わせのスコア一致を含むので、すべての結合係数を計算するために使用することができる。 0.77
In particular, Eq.6 is used to compute the final coefficients that can be used in Eq. 特に、Eq.6は、Eqで使用できる最終的な係数を計算するために使用される。 0.72
4 to obtain all capsules 4 カプセルのすべてを得る 0.79
:,:,nl+1 for each capsule nl+1 of the layer above. :::,nl+1 上の層の各カプセル nl+1 について。 0.71
The term Al (:,:,nl+1) = 用語 Al (:,:,nl+1) = 0.72
(:,nl+1,:) × ˆUTl ˆUl (:,nl+1,:) × ・UTl ・Ul 0.93
(:,nl+1,:) (:,nl+1,:) 0.85
√ dl √ 6 SELFATTENTION √ dl √ 6 セルフアテンション 0.75
Sl+1 n,d of the layer l + 1. 層 l + 1 の Sl+1 n,d である。 0.82
Cl (:,nl+1) = Cl (:,nl+1) = 0.87
(cid:16)(cid:80) (cid:16)(cid:80) (cid:16)(cid:80) (cid:16)(cid:80) 0.73
nl Al (cid:80) nl Al (cid:80) 0.82
exp (:,nl,nl+1) exp (:,nl,nl+1) 0.88
nl+1 exp nl Al nl+1 exp nl Al 0.78
(:,nl,nl+1) (:,nl,nl+1) 0.92
(cid:17) (cid:17) (cid:17) (cid:17) 0.78
(6) So, the coupling coefficients between a capsule of layer l and all the capsules in the layer above, l + 1, sum to one. (6) 従って、層 l のカプセルと上の層 l + 1 のすべてのカプセルの間の結合係数は 1 に合計します。 0.78
Successively, initial log prior probabilities are add to the coupling coefficients to obtain the final routing weights. 結果的に、結合係数に初期ログ先行確率を追加して最終的なルーティングウェイトを得る。
訳抜け防止モード: その後、結合係数に初期ログ先行確率が加算される。 最終経路の重みを得るためです
The procedure remains unchanged in presence of multiple capsule layers, stacked on top of each other in order to create a deeper hierarchy. 手順は、より深い階層を形成するために、複数のカプセル層が互いに積み重ねられている状態で変わっていない。 0.79
3.2 Margin Loss and reconstruction regularizer 3.2 マージン損失と復元正規化 0.70
The output layer is not anymore represented by a scalar, but by a vector as well. 出力層はもはやスカラーで表現されるのではなく、ベクトルでも表現される。 0.78
Indeed, a capsule of the final layer does not only represent the probability that a certain object class exists, but also all its properties extracted from its individual parts. 実際、最終的な層のカプセルは、特定のオブジェクトクラスが存在する確率を表すだけでなく、その個々の部分から抽出されたすべての特性も表す。 0.80
The length of the instantiation vector is used to represent the probability that a capsule’s entity exists. インスタンス化ベクトルの長さは、カプセルの実体が存在する確率を表すために使用される。 0.80
Its length should be close to one if and only if the entity it represents is the only one present in the image. その長さが1に近いのは、それが表現するエンティティが画像に唯一存在する場合に限りである。 0.74
So, to allow multiple-class, we compute Eq. したがって、マルチクラスを可能にするために、Eqを計算します。 0.52
7 for each class represented by a capsule nL of the last layer L: 最後の層LのカプセルnLで表される各クラスの7。 0.62
LnL = TnLmax(cid:0)0, m+ − ||uL n||(cid:1)2 LnL = TnLmax(cid:0)0, m+ − ||uL n|(cid:1)2 0.80
+ λ (1 − TnL ) max(cid:0)0,||uL + λ (1 − TnL ) max(cid:0)0,||uL 0.96
n|| − m−(cid:1)2 n|| − m−(cid:1)2 0.72
(7) where TnL is equal to one if the class nL is present and m+, m− and λ are hyperparameters to be tuned. (7) TnL が 1 と等しい場合、クラス nL が存在し、m+, m−, λ がチューニングされるハイパーパラメータである。 0.78
Then, the separate margin loss LnL are summed to compute the final score during the training phase. そして、別個のマージン損失LnLを和算して、トレーニングフェーズにおける最終スコアを算出する。 0.74
Finally, we adopt the reconstruction regularizer as in[10] to encourage all final capsules to encode robust and meaningful n}n=1,...,N are fed to the reconstruction decoder and the mean of L2 loss between properties. 最後に,in[10]としてレコンストラクション調整器を採用し,すべての最終カプセルがロバストで有意義なn}n=1,...,nを,レコンストラクションデコーダに供給し,プロパティ間のl2損失の平均値を求める。 0.67
So, the output capsules {uL an input image and the decoder output is added to the marginal loss scaled by a factor r. これにより、出力カプセル {uL を入力画像とし、このデコーダ出力を係数 r でスケールした限界損失に加算する。 0.80
4 Results We aim to simply demonstrate that a properly working capsule network should achieve higher results with a considerably lower number of parameters due to its intrinsic capability to embed information better and efficiently. 4結果 我々は,適切に動作するカプセルネットワークが,情報を埋め込む能力が本質的に優れているため,より少ないパラメータで高い結果が得られることを単純に示すことを目的とする。 0.78
In this section, we test the proposed methodology in an experimental context, assessing its generalization capabilities and efficiency respect to traditional convolutional neural networks and similar works present in literature. 本研究では, 従来の畳み込みニューラルネットワーク等に対する一般化能力と効率性を評価することにより, 提案手法を実験的に検証する。 0.72
On this purpose, we test our proposed methodology with three of the most used dataset for capsule-based networks assessment: MNIST, smallNORB and MultiMNIST. そこで本研究では, MNIST, smallNORB, MultiMNISTの3つのカプセルベースネットワークアセスメント用データセットを用いて,提案手法をテストした。 0.82
On all datasets, we demonstrate a remarkable difference with traditional solutions and comparable accuracy levels with similar methodologies but with a fraction of the trainable parameters in most cases. すべてのデータセットにおいて、従来のソリューションと同等の精度で、同様の手法で、ほとんどの場合、トレーニング可能なパラメータのごく一部で、顕著な違いを示します。 0.62
All experimentation clearly shows that a capsule network is capable to achieve higher results with a considerably lower number of parameters count. すべての実験は、カプセルネットワークがパラメータ数をかなり少なくしてより高い結果を達成できることを明確に示しています。 0.71
Moreover, we show how a simple ensemble of a few instances of Efficient-CapsNet can easily establish state-of-the-art results in all the three datasets. さらに、効率の良いcapsnetのインスタンスを単純なアンサンブルで3つのデータセットすべてに最先端の結果を簡単に確立できることを示す。 0.63
Finally, using principal component analysis, we give an introspect to the inner representations of the network and its capability to encode visual information. 最後に、主成分分析を用いて、ネットワークの内部表現とその視覚情報を符号化する能力について考察する。 0.73
4.1 Experimental settings In all experiments, in order to map input samples onto an higher dimensional space, we adopt four convolutional layers with k = 5 for the first convolution and k = 3 for all others. 4.1 実験設定 すべての実験において、入力サンプルを高次元空間にマッピングするために、最初の畳み込みにk = 5、他のすべての畳み込みにk = 3の4つの畳み込み層を採用する。
訳抜け防止モード: 4.1 実験設定 あらゆる実験において、順番に 入力サンプルを高次元空間にマッピングします 我々はk = 5の4つの畳み込み層を第一畳み込みに採用する k = 3 である。
On the other hand, f is equal to 32, 64, 64 and 128, respectively. 一方、f はそれぞれ 32, 64, 64, 128 である。 0.59
ReLU is used in all layers, but leaky-ReLU is a valuable alternative. ReLUはすべての層で使用されますが、漏出性ReLUは貴重な代わりです。 0.68
As previously discussed, the number of capsules depend by the number of feature maps, f, of the last convolutional layer. 以前に説明したように、カプセルの数は最後の畳み込み層の特徴写像の数、fによって決まります。 0.61
Indeed, the depthwise separable 実際、深度的に分離できる 0.59
Method CapsNet[10] AR CapsNet[27] Matrix-CapsNet with EM routing[14] Efficient-CapsNet Method CapsNet[10] AR CapsNet[27] Matrix-CapsNet with EM routing[14] Efficient-CapsNet 0.97
6800 5310 310 161 6800 5310 310 161 0.85
Parameters [K] OPS|1batch [G] パラメータ[K] OPS|1batch [G] 0.86
0.401 0.098 0.086 0.06 0.401 0.098 0.086 0.06 0.45
Improvement|1batch (%) Improvement|1batch (%) 0.74
84.96 38.66 29.56 84.96 38.66 29.56 0.47
- Table 1: Comparison of the computational cost in terms of necessary operations between Efficient-CapsNet and other similar methodologies present in literature. - 表1:Efficient-CapsNetと文献に存在する他の類似の方法論の必要な操作における計算コストの比較。 0.84
Efficient-CapsNet, besides having a reduced number of trainable parameters, is much more efficient. Efficient-CapsNetは、トレーニング可能なパラメータの数を減らすだけでなく、はるかに効率的です。 0.71
7 7 0.85
Figure 5: Digit reconstruction with different tested methodologies. 図5: 異なるテスト手法によるディジット再構築。 0.82
Even with different architecture strategies and training objectives, all networks are able to embed different properties of the input digits keeping only important details. 異なるアーキテクチャ戦略やトレーニング目標であっても、すべてのネットワークは重要な詳細のみを保持する入力桁の異なる特性を埋め込むことができる。 0.78
operation has a kernel dimension k × k equal to the output dimension H × W of the HConv function and a number of filters f equal to its filter dimension F . 演算は、HConv関数の出力次元 H × W に等しいカーネル次元 k × k と、フィルタ次元 F に等しいフィルタ数 f を持つ。 0.68
The first layer of primary capsules, S1 n,d, has n1 = 16 capsules with a dimension d1 of 8. 一次カプセルの最初の層であるS1 n,dは、次元が8のn1 = 16のカプセルを持つ。 0.76
Multiple fully-connected capsule layers can be added to increase the capacity of the network. ネットワークの容量を増やすために、複数の完全接続カプセル層を追加することができる。 0.72
However, we adopt only two layers of capsules due to the relative simplicity of the dataset investigated. しかし,研究対象のデータセットの比較的単純さのため,カプセルの層は2層に過ぎなかった。 0.72
Finally, the output layer of the network has a number of capsules nL equal to the classes of the specific dataset taken into account. 最後に、ネットワークの出力層は、考慮された特定のデータセットのクラスに等しいカプセルnLの数を有する。 0.72
Since that higher-level capsules represent more complex entities with more degrees of freedom, their capsules dimensionality increases. 高レベルのカプセルはより多くの自由度を持つより複雑な実体を表すため、カプセルの寸法は増加する。 0.58
All loss parameters are obtained by CapsNet[10] training. すべての損失パラメータはCapsNet[10]トレーニングによって取得される。 0.72
So, for all experimentation m+, m− and λ are set to 0.9, 0.1 and 0.5, respectively. したがって、すべての実験 m+ と m− と λ はそれぞれ 0.9 と 0.1 と 0.5 に設定される。 0.73
Moreover, the scaling factor r for the reconstruction regularizer is set to 0.392. さらに、再構成調整器のスケーリング係数rを0.392に設定する。 0.69
Indeed, since we use the mean of L2 loss, while CapsNet uses the sum of L2 loss, 0.392 = 0.0005 ∗ 784. 実際、L2損失の平均を使うのに対し、CapsNetはL2損失の和を使うので、0.392 = 0.0005 ∗ 784である。
訳抜け防止モード: 実際、私たちはL2損失の平均を使い、CapsNetはL2損失の合計を使います。 0.392 = 0.0005 ∗ 784 .
All experimentations are carried out on a workstation with an Nvidia RTX2080 GPGPU with 8GB of memory and 64GB of DDR4 SDRAM. 全ての実験は8GBのメモリと64GBのDDR4 SDRAMを備えたNvidia RTX2080 GPGPUのワークステーションで実施される。 0.87
We use the TensorFlow 2.x framework with CUDA 11. CUDA 11ではTensorFlow 2.xフレームワークを使用しています。 0.66
All result statistics are obtained with a mean of 30 trials. すべての結果統計は平均30回の試験で得られる。 0.75
In Table 1 is presented a comparison between the architecture of Efficient-CapsNet and other similar methodologies. 表1では、 efficient-capsnet のアーキテクチャと他の類似の方法論の比較を示す。 0.76
Our model has a much lower number of parameters count, and it is much more efficient in terms of operations required. 私たちのモデルはパラメータの数をはるかに少なくし、必要な操作の面ではずっと効率的です。 0.76
So, it can clearly highlight the generalization capability of capsules with respect to traditional CNN. そのため、従来のCNNに関してカプセルの一般化能力を明確に強調することができる。 0.68
4.2 MNIST results The MNIST dataset [40] is composed of 70000, 28 × 28, images divided in 60000 and 10000 for training and testing, respectively. 4.2 MNIST結果 MNISTデータセット[40]は、トレーニングとテストのためにそれぞれ60000と10000に分割された70000と28×28で構成されている。
訳抜け防止モード: 4.2 MNIST 結果 MNIST データセット [40] は 70000 で構成されます。 28 × 28 の訓練およびテストのための 60000 および 10000 に分けられるイメージ。
We adopt the same data augmentation proposed in Byerly et al.[20]. byerly et al.[20]で提案されたデータ拡張も採用している。 0.68
The reconstruction network is a simple fully-connected network with two hidden layers with 512 and 1024 neurons. 再構成ネットワークは、512と1024のニューロンを持つ2つの隠された層を持つ単純な完全接続ネットワークです。 0.66
We test our methodology and compare it with different models and two custom CNN baseline. 我々は方法論をテストし、異なるモデルと2つのカスタムCNNベースラインと比較する。 0.68
In particular, our baseline is identical to Sabour et al. 特に、私たちのベースラインはSabour et alと同一です。 0.62
[10] with the exception of a reduced number of feature maps and layers, in order to keep the number of parameters as close as possible to Efficient-CapsNet. 10] 機能マップとレイヤの数が減ったことを除けば,パラメータの数を可能な限り近づけて,効率的なcapsnetを実現するためです。 0.74
On the other hand, "Base-CapsNet" is a CNN but with a vectorial output as in a capsule-based network. 一方、「Base-CapsNet」はCNNですが、カプセルベースのネットワークのようにベクトル出力があります。 0.77
So, it is also trained with the marginal loss function. 従って、それはまた限界の損失機能と訓練されます。 0.61
That is specifically devised to assess the role of the reconstruction network and its impact on the overall accuracy. これは,再建ネットワークの役割と,その全体的精度への影響を評価するために考案されたものである。 0.72
Our networks are trained for 100 epochs, batch size of 16, Adam [41] optimizer and an initial learning rate of η = 5e − 4 with exponential decay 0.98. ネットワークは100エポック,バッチサイズ16,Adam[41]オプティマイザ,始学習率η = 5e − 4,指数崩壊0.98で訓練されている。 0.73
All hyperparameters are selected with a small percentage of validation data. すべてのハイパーパラメータは、少数の検証データで選択される。 0.77
In Table 2 are reported parameters and test errors of the different tested architectures. 表2では、異なるテストアーキテクチャのパラメータとテストエラーが報告されている。 0.68
It is evident the gap between all baseline CNNs and all other capsule-based networks. 全てのベースラインCNNと他のカプセルベースのネットワークのギャップは明らかである。 0.77
Moreover, even if Efficient-CapsNet has barely 161K parameters, it is comparable with all other methodologies present in the literature so far. さらに、Efficient-CapsNet が 161K のパラメータしか持たないとしても、これまでの文献にある他の方法論に匹敵する。 0.67
It achieves a mean accuracy of 0.9974 with a min value of 0.9971 and a max one of 0.9978. 平均精度は0.9974で、最小値は0.9971、最大精度は0.9978である。 0.75
Finally, a network with a vectorial output receives a significant boost in performance using the reconstruction regularizer. 最後に、ベクトル出力を持つネットワークは、再構成正規化器を用いて性能を著しく向上させる。 0.69
In Figure 5 are presented some images generated by the reconstruction networks of the different tested methodologies. 図5では、異なるテスト手法の再構成ネットワークによって生成されたいくつかの画像を示す。 0.64
It also worth to notice that, even in the presence of an 注意すべき点は、たとえある存在であっても、 0.55
8 8 0.85
adaptive gradient descent method, Efficient-CapsNet does not overfit the training set but register a similar accuracy with the test set after the training. 適応勾配降下法, 効率的なCapsNetはトレーニングセットに適合しないが, トレーニング後のテストセットに類似した精度を登録する。 0.78
As previously stated, we also demonstrate that a simple ensemble of Efficient-CapsNet models can easily establish a state-of-the-art result. 前述したように、Efficient-CapsNetモデルの単純なアンサンブルが、最先端の結果を容易に確立できることを示す。 0.62
Indeed, we exploit the 30 trained networks for test score statistics to produce an ensemble prediction. 実際、30のトレーニングされたネットワークをテストスコア統計に利用して、アンサンブル予測を生成する。 0.67
In particular, we average all network predictions with an accuracy greater than 0.9973, obtaining a final test error of 0.16. 特に、0.9973以上の精度で全てのネットワーク予測を平均し、最終テストエラーを0.16とした。 0.79
In Table 3 are summarized results of top MNIST leaderboard methodologies. 表3では、トップmnistリーダーボード方法論の要約結果を示す。 0.64
The considerable gap between the mean single network test score, 0.26, and the ensemble one, 0.16, is due to the uncertainty on predictions of all remaining digits. 平均シングルネットワークテストスコア 0.26 とアンサンブルテストスコア 0.16 の間のかなりの差は、残りの全ての桁の予測の不確実性によるものである。 0.71
Indeed, Efficient-CapsNet predicts the output class using the length of its output vector. 実際、 efficient-capsnet は出力ベクトルの長さを使って出力クラスを予測する。 0.77
So, unlike the exclusive softmax function, most of the ambiguous digits are reflected in the uncertainty of the network outputs. したがって、排他的ソフトマックス関数とは異なり、曖昧な桁の多くはネットワーク出力の不確かさに反映される。 0.75
The ensemble simply steers predictions on the most probable answer. このアンサンブルは、最も可能性の高い答えを単純に予測する。 0.52
That is a clear sign of the strong knowledge of the dataset encapsulated by the network during the training. これは、トレーニング中にネットワークによってカプセル化されたデータセットの強い知識の明確な兆候です。 0.75
Indeed, analyzing the misclassified digits and their prediction scores in the case of a single model clarifies the correctness of its answers despite the given labels. 実際、単一のモデルの場合の誤分類された数字とその予測スコアを分析することは、与えられたラベルにもかかわらずその答えの正確性を明確にする。 0.62
As shown in Figure 6, misclassified examples are ambiguous and classifying them correctly is only a matter of pure luck. 図6に示すように、誤分類された例は曖昧であり、正しく分類することは単なる幸運の問題である。 0.70
In our opinion, it is for this reason that networks capable of achieving Efficient-CapsNet level of accuracy have modelled every important aspect of the MNIST dataset and further improvements in the test score have no significant meaning. 我々の意見では、効率的なcapsnetレベルの精度を達成することができるネットワークがmnistデータセットのあらゆる重要な側面をモデル化しており、テストスコアのさらなる改善は重要な意味を持たない。 0.72
4.3 smallNORB results 4.3 smallNORB 結果 0.71
The dataset smallNORB is a collection of 48600 stereo, grayscale images (96 × 96 × 2), representing 50 toys belonging to 5 generic categories: human, airplanes, trucks, cars and four-legged animals. データセット smallnorbは、人間、飛行機、トラック、車、四足動物の5つのカテゴリに属する50のおもちゃを表す、48600のステレオ、グレースケールの画像(96 × 96 × 2)のコレクションである。 0.69
Each toy was photographed by two cameras under 6 lighting conditions, 9 elevations, and 18 azimuths. それぞれのおもちゃは6つの照明条件、9つの標高、18の方位の下で2つのカメラで撮影された。
訳抜け防止モード: それぞれのおもちゃは6つの照明条件の下で2つのカメラで撮影された。 9,アジマス18。
The dataset is split in half; 5 instances of each category for the training and the remaining ones for the testing. データセットは半分に分割され、トレーニング用の各カテゴリの5インスタンスとテスト用の残りのインスタンスである。 0.82
Efficient-CapsNet has the same structure described in the "MNIST results" section with the only exception of Instance Normalization [45] in place of Batch Normalization layers. Efficient-CapsNetは、"MNIST results"セクションで記述されているのと同じ構造を持ち、Batch Normalizationレイヤの代わりにインスタンス正規化[45]のみが例外です。 0.66
That greatly helps the network to deal with different lighting conditions and make the network training as independent as possible of the contrast and brightness differences among the input images. これにより、ネットワークは異なる照明条件に対処し、入力画像間のコントラストと明るさの違いを可能な限り独立させることができます。 0.77
On the other hand, we follow the same data augmentation and pre-processing proposed in Hinton et. 一方,我々は hinton et で提案されているデータ拡張と前処理を追従している。 0.68
al[14] with the only exception of the input dimension: we scale the original images to 64 × 64 using patches of 48 × 48. al[14]は入力次元の唯一の例外であり、48×48のパッチを使用して元の画像を64×64にスケールする。 0.78
We train for 200 epochs, with a batch size of 16, Adam optimizer and an initial learning rate of η = 5e − 4 with exponential decay of 0.99. 我々は、16のバッチサイズ、アダムオプティマイザ、および0.99の指数減衰で、イニシャル学習率が5e − 4である200エポックを訓練します。 0.59
In Table 4 are summarized the results of the baseline networks, Efficient-CapsNet and some capsule-based methodologies present in literature. 表4では、ベースラインネットワーク、効率的なcapsnetおよび文献に存在するカプセルベースの方法論の結果を要約する。 0.67
As for the MNIST dataset, also for smallNORB is evident the gap between classical CNN and capsule-based networks. MNISTデータセットに関しては、SmallNORBについても、古典的なCNNとカプセルベースのネットワークのギャップは明らかである。 0.61
Moreover, again our methodology has comparable results with all other similar methodologies but with half of the parameters. さらに、我々の方法論は、他の全ての類似の方法論と同等の成績を上げていますが、パラメータの半分です。
訳抜け防止モード: さらに、我々の方法論は、他のすべての類似した方法論と同等の結果を持つ。 半分のパラメータで
It achieves a mean accuracy of 0.974 with a min value of 0.97 and a max one of 0.983. 平均精度は0.974で、最小値は0.973、最大精度は0.983である。 0.76
Finally, as before we exploit the 30 networks, trained for statistical evidence, to produce an ensemble prediction. 最後に、統計的証拠のために訓練された30のネットワークを利用して、アンサンブル予測を生成する。 0.64
We select only the two networks with the lowest test error, and we adopt for both a 40 patch prediction[14] before averaging their results. テストエラーが最も低い2つのネットワークのみを選択し、結果を平均する前に40のパッチ予測[14]の両方を採用する。 0.76
We obtain a test accuracy of 1.23, setting a new state-of-the-art result for this dataset. テスト精度は1.23で、このデータセットに新しい最先端結果を設定する。 0.75
Method Our Baseline Base-CapsNet Our Baseline Base-CapsNet Efficient-CapsNet Baseline[10] CapsNet[10] Matrix-CapsNet with EM routing[14] DA-CapsNet [29] AR CapsNet [27] HFCs [20] 当社のベースラインBase-CapsNet ベースラインBase-CapsNet Efficient-CapsNet Baseline[10]CapsNet[10] Matrix-CapsNet EMルーティング [14] DA-CapsNet [29] AR CapsNet [27] HFC [20] 0.93
Reconstruction no no yes yes yes no yes no yes yes no 再建 だめ だめ だめ だめ だめ だめ だめ だめ だめ だめ だめ だめ 0.41
Parameters [K] 173 183 173 183 161 35400 6800 310 7000 5310 1514 パラメータ[K] 173 183 173 183 161 35400 6800 310 7000 5310 1514 0.83
MNIST [%] MNIST (複数形 MNISTs) 0.52
0.48 0.54 0.4 0.39 0.48 0.54 0.4 0.39 0.45
0.26±0.0002 0.26±0.0002 0.29
0.25±0.005 (0.36±0.04)* 0.25±0.005 (0.36±0.04)* 0.39
0.39 0.44 0.47 0.54 0.39 0.44 0.47 0.54 0.53
0.25±0.0002 0.25±0.0002 0.29
Table 2: Test error (%) on the MNIST classification task. 表2:mnist分類タスクにおけるテストエラー(%)。 0.75
All methodologies are reported with their number of parameters and the presence of the reconstruction regularizer during the training phase. すべての方法論は、パラメータの数とトレーニングフェーズ中に復元正規化の存在で報告されます。 0.68
* indicates the results from our experiments. ※実験の結果を示す。 0.65
9 9 0.85
Method Multi-Column Deep Neural Networks for Image Classification [42] Regularization of Neural Networks using DropConnect [43] RMDL:Random Multimodel Deep Learning for Classification [44] Base-Branching & Merging CNNw/HFCs [20] Efficient-CapsNet 画像分類のためのマルチカラムディープニューラルネットワーク法 [42] DropConnect [43] RMDLを用いたニューラルネットワークの正規化 [44] Base-Branching & Merging CNNw/HFC [20] Efficient-CapsNet 0.79
Year 2012 2013 2018 2020 2021 Year 2012 2013 2018 2020 2021 0.85
Test Error [%] 0.23 0.21 0.18 0.16 0.16 テストエラー[%] 0.23 0.21 0.18 0.16 0.16 0.48
Table 3: Test error (%) on the MNIST classification task of state-of-the-art methodologies based on ensemble over the years. 表3: 長年にわたるアンサンブルに基づく最先端方法論のmnist分類タスクにおけるテストエラー(%)。 0.70
Method Our Baseline Base-CapsNet Our Baseline Base-CapsNet Efficient-CapsNet Baseline [14] Matrix-CapsNet with EM routing [14] CapsNet [10] VB-Routig [16] ベースラインBase-CapsNet ベースラインBase-CapsNet Efficient-CapsNet Baseline [14] EMルーティング付きMatrix-CapsNet [14] CapsNet [10] VB-Routig [16] 0.90
Reconstruction no no yes yes yes no no yes yes 再建 いいえはいはいはいはいはいはいはいはいはい 0.66
Parameters [K] 198 167 198 167 151 4200 310 6800 310 パラメータ[K] 198 167 198 167 151 4200 310 6800 310 0.83
5.9 4.58 4.59 4.33 5.9 4.58 4.59 4.33 0.45
5.2 2.54±0.003 5.2 2.54±0.003 0.44
smallNORB [%] smallNORB (複数形 smallNORBs) 0.57
1.8 (4.4±0.004)* 1.8 (4.4±0.004)* 0.50
3.77 1.6±0.06 3.77 1.6±0.06 0.44
Table 4: Test error (%) on the smallNORB classification task. 表4: smallnorb分類タスクにおけるテストエラー(%)。 0.77
All methodologies are reported with their number of parameters andthe presence of the reconstruction regularizer during the training phase. 全ての手法は, トレーニング期間中に, パラメータ数と再現正則化器の存在を伴って報告される。 0.65
* indicates the results from our experiments. ※実験の結果を示す。 0.65
4.4 MultiMNIST results 4.4 MultiMNIST 結果 0.77
The MultiMNIST dataset has been proposed by Sabour et al. MultiMNISTデータセットはSabourらによって提案されている。 0.61
[10] and is based on the superposition of couples of shifted digits from the MNIST dataset. 10]とMNISTデータセットからシフトされた桁のカップルの重ね合わせに基づいています。 0.80
Each original image is first padded to a 36 × 36 pixels dimension. 各オリジナル画像は、まず36×36ピクセルの寸法にパディングされる。 0.75
A MultiMNIST sample is generated by overlaying two padded digits, which shifts up to 4 pixels in both dimensions, resulting in an average 80% overlap. マルチMNISTサンプルは2つのパッド付き桁をオーバーレイすることで生成され、両方の次元で最大4ピクセルにシフトし、平均80%のオーバーラップとなる。 0.74
The only condition to be met is that the two digits are of different classes. 満たされる唯一の条件は、2桁が異なるクラスのものであることである。 0.76
In the labels, both indexes corresponding to the two classes are set to 1. ラベルでは、2つのクラスに対応する両方のインデックスが1に設定されます。 0.71
In this way, the network aim is to detect both the digits concurrently. このように、ネットワークの目的は両方の桁を同時に検出することです。 0.72
During training, the output capsules corresponding to the target classes are selected one at a time and used to reconstruct the two input images, while during testing we select the two most active capsules, i.e. トレーニング中、対象のクラスに対応する出力カプセルを1つずつ選択し、2つの入力イメージの再構築に使用し、テスト中は2つの最もアクティブなカプセル、すなわち2つを選択します。 0.73
the longest. Ideally, the network should be able to segment the two digits that have generated the MultiMNIST sample and independently reconstruct them. 一番長い 理想的には、ネットワークはMultiMNISTサンプルを生成した2桁を分割し、独立して再構成することができる。 0.64
During training, for each epoch, we randomly generate 10 MultiMNIST images for each original MNIST example. トレーニング中、各エポック毎に、元のMNISTの例ごとに10のMultiMNIST画像をランダムに生成する。 0.73
We train the model 5 times independently for about 100 epochs, with a batch size of 64, Adam optimizer and an initial learning rate of η = 5e−4 with exponential decay of 0.97. モデルは約100エポックにわたって独立に5回トレーニングし、バッチサイズは64、adam optimizer、初期学習レートはη = 5e−4、指数的減衰は0.97である。 0.75
Since we generate two reconstruction Figure 6: Example of Efficient-CapsNet misclassified digits. 再建が2つあるので 図6: efficient-capsnet misclassified digitsの例。 0.73
Green bars represent correct labels and their high the corresponding capsule length. 緑色の棒は正しいラベルを表し、その高いカプセルの長さを表す。 0.67
The ambiguity of these remaining questionable examples is reflected in the uncertainty of the network predictions. これらの残りの疑わしい例の曖昧さは、ネットワーク予測の不確実性に反映される。 0.69
10 10 0.85
Figure 7: Effect on the digit reconstruction of the addition of perturbations to the output capsule values with different tested methodologies. 図7:異なる試験方法による出力カプセル値への摂動の付加の桁再構築への影響。 0.76
All networks are able to embed shape, position and orientation information of the input digit except for the classical CNN with softmax output. 全てのネットワークは、ソフトマックス出力を持つ古典的CNNを除いて、入力桁の形状、位置、方向情報を埋め込むことができる。 0.66
That suggests that the capsule structure of the output, in which each class has its feature vector, is fundamental to get interpretable output embeddings. これは、各クラスが特徴ベクトルを持つ出力のカプセル構造が、解釈可能な出力埋め込みを得るために基本であることを示唆している。 0.78
images for each input sample, we divide the reconstruction regularizer by half. 画像は入力サンプルごとに 復元正則化器を半分に分割します 0.75
During testing, we generate 1000 MultiMNIST images for each MNIST digit to have a fair comparison with the work by Sabour et al. テスト中は、各MNIST桁の1000個のマルチMNISTイメージを生成し、Sabour et alの作品と公正に比較します。 0.77
[10], for a total of 10 million samples. 10]、合計1000万のサンプルのため。 0.50
We get a mean test error of 5.1%±0.005 with our model of 154K parameters, in comparison to the original work test error of 5.2% with more than 9M parameters. 平均テスト誤差は154Kパラメータのモデルで5.1%±0.005であり、元の作業テスト誤差は9Mパラメータ以上の5.2%である。 0.89
Moreover, with an ensemble of the three models that get an accuracy greater than a threshold of 0.9470, we get a reduction of the test error to 3.8%. さらに,しきい値0.9470よりも精度の高い3つのモデルのアンサンブルにより,テスト誤差を3.8%に低減した。 0.77
These results show how our methodology is able to correctly detect and recognize highly overlapping digits encoding information about their position and style in the output layer capsules. これらの結果から, 本手法は, 出力層カプセルの位置やスタイルに関する情報を符号化し, 重なり合う数字を正しく検出し, 認識できることを示す。 0.76
4.5 Affine transformations embedding 4.5 アフィン変換の埋め込み 0.54
To understand what kind of information is embedded in the output capsules, we can perturb the prediction and observe how the reconstruction is affected. 出力カプセルにどのような情報が埋め込まれているのかを理解するために、予測を乱し、再構築がどのように影響するかを観察できます。
訳抜け防止モード: 出力カプセルにどんな情報が埋め込まれているかを理解すること。 予測を混乱させ、再構築がどう影響するかを観察できる。
We select the capsule with the longest length and we add small positive and negative contributions to its single elements. 我々は、最長のカプセルを選択し、その単一の要素に小さな正および負の寄与を加える。 0.73
Figure 7 shows some example of perturbed images with different methodologies. 図7は、異なる手法による摂動画像の例を示している。 0.70
We can observe how Efficient-CapsNet is behaving similarly to the original CapsNet [10], with the ability to encode combinations of different transformations of the digit. Efficient-CapsNetがオリジナルのCapsNet [10]と同じような振る舞いをしている様子を観察でき、桁の異なる変換の組み合わせをエンコードできる。 0.81
Retraining CapsNet also obtains similar behaviour with the proposed self-attention routing. Retraining CapsNetは、提案された自己アテンションルーティングと同じような振る舞いも得る。 0.50
A Convolutional Neural Network with a fake capsule layer, i.e. 偽のカプセル層を持つ畳み込みニューラルネットワーク、すなわち 0.56
a vector instead of a scalar for each output class, also demonstrates the ability to encode actual shape, position and orientation information. 出力クラスごとにスカラーの代わりにベクトルは、実際の形状、位置、方向情報をエンコードする能力も示す。 0.72
On the other hand, considering the last features of a classical CNN, we are not able to reproduce this behaviour. 一方、古典的なCNNの最後の特徴を考えると、この行動を再現することはできません。 0.55
That suggests that a capsule organization of the output, in which each digit has its instantiation parameters and the activation is measured by the length of the vector, is fundamental for a meaningful embedding of the information. これは、各桁がインスタンスパラメータを持ち、アクティベーションがベクトルの長さによって測定される出力のカプセル構成が、情報の有意義な埋め込みの基盤であることを示唆している。 0.76
To further investigate the ability of the proposed model to capture meaningful information in the components of the output capsules, we study the equivariance to transformations with a method similar to the one proposed by Choi et al. 出力カプセルの成分に有意な情報を取り込むための提案モデルの能力についてさらに検討するため,choiらによって提案されたものと同様の方法を用いて,変換の等価性について検討する。 0.77
[27]. For each test image we generate the images corresponding to the 11 translations between [-5,+5] pixels on both the axes and to the 51 rotations between [-25,+25] degrees. [27]. 各テスト画像に対して、軸上の[-5,+5]画素間の11の翻訳と、[-25,+25]度間の51の回転に対応する画像を生成する。 0.74
If the model is behaving as expected, we should see that each affine transformation (translation on x, translation on y, rotation) is independently linearly encoded in the activations of the correct output capsule. モデルが期待通りに振る舞うならば、それぞれのアフィン変換(x, y, 回転の変換)が、正しい出力カプセルの活性化に独立に線形に符号化されていることが分かる。 0.80
We verify it, by computing the Principal Component Analysis on the output vectors for each type of transformation. 私たちは、変換の各タイプの出力ベクトルの主成分分析を計算することによって、それを検証します。
訳抜け防止モード: 私たちはそれを検証します 変換の各タイプに対する出力ベクトルの主成分分析を計算する。
We denote as K the number of transformed images and with N the number of output classes and we collect the output predictions ui, i = 1, ..., K. We center the data points and we compute the Singular Value Decomposition on the covariance matrix C: 変換された画像の数とNで出力クラスの数を表し、出力予測 ui, i = 1, ..., K を収集します。データポイントを集中させ、共分散行列 C 上の特異値分解を計算します。
訳抜け防止モード: 我々はKを変換された画像の数、Nを出力クラス数と表現する。 そして出力予測 ui, i = 1 を収集する。 私たちはデータポイントを中心にします。 共分散行列 C 上の特異値分解を計算する。
zi = ui − u zi = ui − u 0.85
K(cid:88) i=1 K(cid:88) i=1 0.71
C = 1 K zi zT i C = 1K zi zT i 0.81
C = UΣUT 11 C = UΣUT 11 0.82
(8) (9) (10) (8) (9) (10) 0.85
(a) Translations on x: [-5,+5] pixels (a) x 上の翻訳: [-5,+5] ピクセル 0.84
(b) Translations on y: [-5,+5] pixels (b) y: [-5,+5] ピクセルの翻訳 0.79
(c) Rotations: [-25,+25] degrees (c)回転:[-25,+25]度 0.71
(d) Random Figure 8: Test set average cumulative variance explained with different numbers of PCA components by EfficentCapsNet output capsule. (d)ランダム 図8: EfficentCapsNet出力カプセルによるPCAコンポーネントの異なる数で説明される平均累積分散をテストします。 0.81
It is clearly visible how the model is able to linearly embed affine transformations in the output space. モデルがどのように出力空間にアフィン変換を線形に埋め込むことができるかは明らかである。 0.79
As a linearity metric, we consider the fraction of the first eigenvalue σ1 of the matrix Σ over the sum of all its eigenvalues. 線型性計量として、行列 Σ の第一固有値 σ1 の分数とそのすべての固有値の和を考える。 0.68
Since the eigenvalues represent the variance of the original data points explained by each component of the PCA, if the transformations are linearly encoded, we should have a high fraction of the variance captured with just a single component, thus a high first eigenvalue ratio. 固有値は、PCAの各成分によって説明される元のデータポイントの分散を表すため、変換が線形に符号化された場合、1つの成分だけで取得される分散の比率が高いので、第1の固有値比が高い。 0.74
σ1(cid:80)N σ1(cid:80)N 0.78
j=1 σj r = j=1 σj r = 0.72
(11) We perform this analysis on both the original CapsNet[10] and our model. (11) この分析は、オリジナルのCapsNet[10]と私たちのモデルの両方で行います。 0.82
The average results on all the test images are shown in table 5, along with a comparison with the PCA performed on randomly generated vectors with the same dimension. 全てのテスト画像の平均結果は、同じ次元のランダムに生成されたベクトル上で実行されるPCAとの比較とともに、テーブル5に表示される。 0.80
Efficient-CapsNet shows higher linearity with respect to the original CapsNet in the encoding of affine transformations in the output capsule space. Efficient-CapsNetは、出力カプセル空間におけるアフィン変換の符号化において、元のCapsNetに対するより高い直線性を示す。 0.67
Figure 8 presents the average cumulative variance explained increasing the number of PCA components on the whole test set. 図8は、テストセット全体におけるPCAコンポーネントの数の増加を説明する平均累積分散を示しています。 0.77
For all the three transformations, Effienct-CapsNet is able to capture all the information with just two components, showing an almost perfectly linear behaviour with respect to the random example. 3つの変換すべてについて、effienct-capsnetは2つのコンポーネントで全ての情報をキャプチャでき、ランダムな例に関してほぼ完全に線形な振る舞いを示す。 0.69
That shows how our architecture can correctly embed position and orientation information of the recognized digit in the output vector components. これは、我々のアーキテクチャが認識された桁の位置と方向情報を出力ベクトル成分に正しく埋め込む方法を示している。 0.69
Method Random CapsNet [10] Efficient-CapsNet Method Random CapsNet [10] Efficient-CapsNet 0.94
Translations on x Translations on y y 上の x 翻訳の翻訳 0.73
25.57%±0.028 83.78%±0.006 89.69%±0.005 25.57%±0.028 83.78%±0.006 89.69%±0.005 0.47
25.54%±0.028 79.82%±0.009 87.28%±0.008 25.54%±0.028 79.82%±0.009 87.28%±0.008 0.47
Rotations 13.49%±0.009 88.01%±0.006 88.75%±0.005 回転 13.49%±0.009 88.01%±0.006 88.75%±0.005 0.57
Table 5: Average percentage of variance captured by the first component of PCA performed on the output capsule vectors of the different transformations applied to test set images. 表5: テストセット画像に適用した異なる変換の出力カプセルベクトル上で行ったPCAの第1成分によって得られた分散率の平均値。 0.87
5 Conclusion In this paper, we proposed Efficient-CapsNet, a novel capsule-based network that strongly highlights the generalization capabilities of capsules over traditional CNN, showing a much stronger knowledge representation after training. 5 結論 本論文では、従来のCNNよりもカプセルの一般化能力を強く強調した新しいカプセルベースのネットワークであるEfficient-CapsNetを提案し、トレーニング後にはるかに強力な知識表現を示す。 0.70
Indeed, our implementation, even with a very limited number of parameters is still capable of achieving state-of-the-art results on three distinct datasets, considerably outperforming previous implementations in terms of needed operations. 実際、私たちの実装は、非常に限られたパラメータでも、3つの異なるデータセットで最先端の結果を達成することができ、必要な操作の点で以前の実装を大幅に上回ります。 0.54
Moreover, 12 また、 12 0.71
we introduced an alternative non-iterative routing algorithm that exploits a self-attention mechanism to rout a reduced number of capsules between subsequent layers efficiently. 我々は,後続層間のカプセル数を効率的に削減するために自己付着機構を利用する,代替的な非イテレーティブルーティングアルゴリズムを導入した。 0.64
Further works will aim at designing a synthetic dataset to scale the network and analyze in-depth viewpoint generalization and network inner feature representations. さらに、ネットワークを拡大し、詳細な視点の一般化とネットワーク内部の特徴表現を分析するための合成データセットの設計を目指しています。 0.71
Acknowledgements This work has been developed with the contribution of the Politecnico di Torino Interdepartmental Centre for Service Robotics PIC4SeR1 and SmartData@Polito2. 認識 この研究は、Politecnico di Torino Interdepartmental Centre for Service Robotics PIC4SeR1とSmartData@Polito2の貢献によって開発された。 0.67
Author contributions statement Conceptualization, V.M. 著者貢献声明 概念化、V.M。 0.66
and F.S. ; methodology, V.M. そしてF.S. 方法論、V.M。 0.68
; software, V.M. ソフトウェア、V.M。 0.89
and F.S. ; validation, V.M. そしてF.S. ; Validation, V.M。 0.76
and F.S. ; formal analysis, V.M. そしてF.S. 正式な分析、V.M。 0.74
and F.S. ; investigation, V.M. そしてF.S. 調査、V.M。 0.75
and F.S. ; resources, M.C. そしてF.S. 資源、M.C。 0.76
; data curation, V.M. ; データキュレーション、V.M。 0.65
and F.S. ; writing original draft preparation V.M. そしてF.S. 原案作成書 V.M. 0.68
and F.S. ; writing review and editing, V.M. そしてF.S. レビューと編集の執筆、V.M。 0.76
and F.S. ; visualization, V.M. そしてF.S. 可視化、V.M。 0.70
and F.S. ; supervision, V.M. そしてF.S. 監督、V.M。 0.66
and F.S. ; project administration, V.M., F.S. そしてF.S. プロジェクト管理、V.M.、F.S。 0.68
and M.C. ; funding acquisition, M.C. とM.C. 資金調達、m.c. 0.74
References [1] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. 参考文献 [1]Alex Krizhevsky、Ilya Sutskever、Geoffrey E Hinton。 0.66
Imagenet classification with deep convolutional neural 深層畳み込みニューラルネットワークによるイメージネット分類 0.68
networks. Communications of the ACM, 60(6):84–90, 2017. ネットワーク。 ACMの通信、60(6):84-90、2017。 0.75
[2] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. [2]カイミング彼、Xiangyu Zhang、Shaoqingren、およびJian Sun。 0.63
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. 内 IEEE Conference on computer vision and pattern recognition, page 770–778, 2016の成果。 0.72
[3] Jie Hu, Li Shen, and Gang Sun. [3]Jie Hu、Li Shen、Gang Sun。 0.62
Squeeze-and-excitati on networks. Squeeze-and-Excitati on Network。 0.49
In Proceedings of the IEEE conference on IEEEカンファレンスの開催にあたって 0.71
computer vision and pattern recognition, pages 7132–7141, 2018. コンピュータビジョンとパターン認識、ページ7132-7141、2018。 0.80
[4] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. 4] Joseph Redmon、Santosh Divvala、Ross Girshick、Ali Farhadi。 0.65
You only look once: Unified, real-time object detection. 一度だけ見えます: 統一されたリアルタイムオブジェクト検出。 0.70
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 779–788, 2016. コンピュータビジョンとパターン認識に関するIEEEカンファレンスProceedings of the IEEE conference, page 779–788, 2016 0.85
[5] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg. 5]Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C Berg
訳抜け防止モード: [5 ]Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng - Yang Fu, そしてアレクサンドル・C・ベルク。
Ssd: Single shot multibox detector. Ssd:シングルショットマルチボックス検出器。 0.63
In European conference on computer vision, pages 21–37. コンピュータビジョンに関する欧州会議では、21-37ページ。 0.75
Springer, 2016. スプリンガー、2016年。 0.60
[6] Vittorio Mazzia, Aleem Khaliq, Francesco Salvetti, and Marcello Chiaberge. 6] Vittorio Mazzia, Aleem Khaliq, Francesco Salvetti, Marcello Chiaberge. 0.71
Real-time apple detection system using embedded systems with hardware accelerators: An edge ai application. ハードウェアアクセラレータ付き組み込みシステムを用いたリアルタイムapple検出システム:エッジaiアプリケーション。 0.80
IEEE Access, 8:9102–9114, 2020. IEEE Access, 8:9102–9114, 2020。 0.75
[7] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. 7] Kaiming He、Georgia Gkioxari、Piotr Dollár、Ross Girshick。 0.59
Mask r-cnn. In Proceedings of the IEEE マスクr-cnn。 IEEEの進展について 0.67
international conference on computer vision, pages 2961–2969, 2017. コンピュータビジョン国際会議』2961-2969頁、2017年。 0.79
[8] Geoffrey E Hinton, Alex Krizhevsky, and Sida D Wang. 8] Geoffrey E Hinton、Alex Krizhevsky、およびSida D Wang。 0.71
Transforming auto-encoders. 自動エンコーダの変換。 0.53
In International conference on artificial neural networks, pages 44–51. 国際会議において 人工ニューラルネットワークでは44-51ページ。 0.73
Springer, 2011. 2011年、スプリンガー。 0.57
[9] David G Lowe. デイヴィッド・G・ロウ (David G Lowe)。 0.50
Object recognition from local scale-invariant features. 局所的スケール不変特徴からの物体認識 0.78
In Proceedings of the seventh IEEE 第7回IEEEの進展 0.60
international conference on computer vision, volume 2, pages 1150–1157. コンピュータビジョンに関する国際会議、巻2、ページ1150-1157。 0.77
Ieee, 1999. 1999年のieee。 0.79
[10] Sara Sabour, Nicholas Frosst, and Geoffrey E Hinton. 10] Sara Sabour、Nicholas Frosst、Geoffrey E Hinton。 0.60
Dynamic routing between capsules. カプセル間の動的ルーティング。 0.75
Advances in neural information processing systems, 30:3856–3866, 2017. 神経の進歩 情報処理システム 30:3856–3866, 2017 0.76
[11] Edgar Xi, Selina Bing, and Yang Jin. 11] Edgar Xi、Selina Bing、Yang Jin。 0.60
Capsule network performance on complex data. 複雑なデータに対するカプセルネットワークのパフォーマンス。 0.72
arXiv preprint arXiv プレプリント 0.83
arXiv:1712.03480, 2017. arXiv:1712.03480, 2017 0.66
[12] Dilin Wang and Qiang Liu. 12] Dilin WangおよびQiang Liu。 0.68
An optimization view on dynamic routing between capsules, 2018. カプセル間の動的ルーティングに関する最適化ビュー、2018。 0.74
[13] Jan Eric Lenssen, Matthias Fey, and Pascal Libuschewski. 13] Jan Eric Lenssen、Matthias Fey、Pascal Libuschewski。 0.62
Group equivariant capsule networks. グループ同変カプセルネットワーク。 0.69
arXiv preprint arXiv プレプリント 0.83
arXiv:1806.05086, 2018. arXiv:1806.05086, 2018 0.69
[14] Geoffrey E Hinton, Sara Sabour, and Nicholas Frosst. 14] Geoffrey E Hinton、Sara Sabour、Nicholas Frosst。 0.63
Matrix capsules with em routing. emルーティング付きマトリックスカプセル。 0.54
In International conference on learning representations, 2018. 国際会議において 学習表現、2018年。 0.64
[15] Mohammad Taha Bahadori. [15]モハンマド・タハ・バハドリ。 0.46
Spectral capsule networks, 2018. spectrum capsule networks、2018年。 0.76
1https://pic4ser.pol ito.it 2https://smartdata.p olito.it 1https://pic4ser.pol ito.it 2https://smartdata.p olito.it 0.36
13 13 0.85
[16] Fabio De Sousa Ribeiro, Georgios Leontidis, and Stefanos D Kollias. 16] Fabio De Sousa Ribeiro、Georgios Leontidis、Stefanos D Kollias。 0.64
Capsule routing via variational bayes. 変動ベイ経由のカプセルルーティング。 0.64
In AAAI, pages 3749–3756, 2020. 内 AAAI, pages 3749–3756, 2020。 0.76
[17] Jindong Gu and Volker Tresp. 17] Jindong GuとVolker Tresp。 0.65
Improving the robustness of capsule networks to image affine transformations. カプセルネットワークの堅牢性を画像アフィン変換に改善する。 0.72
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7285–7293, 2020. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 7285–7293, 2020。 0.92
[18] Inyoung Paik, Taeyeong Kwak, and Injung Kim. [18]Inyoung Paik,Taeyeong Kwak,Injung Kim。 0.67
Capsule networks need an improved routing algorithm. カプセルネットワークは改善されたルーティングアルゴリズムを必要とする。 0.60
In Asian Conference on Machine Learning, pages 489–502. アジアでは Conference on Machine Learning, page 489–502。 0.83
PMLR, 2019. 2019年、PMLR。 0.72
[19] Sai Raam Venkatraman, Ankit Anand, S Balasubramanian, and R Raghunatha Sarma. [19]Sai Raam Venkatraman、Ankit Anand、S Balasubramanian、R Raghunatha Sarma。 0.67
Learning compositional structures for deep learning: Why routing-by-agreement is necessary. 作曲を学ぶ ディープラーニングのための構造: ルーティングがなぜ必要か。 0.68
arXiv preprint arXiv:2010.01488, 2020. arXiv preprint arXiv:2010.01488, 2020 0.81
[20] Adam Byerly, Tatiana Kalganova, and Ian Dear. [20]Adam Byerly、Tatiana Kalganova、Ian Dear。 0.58
A branching and merging convolutional network with homoge- 分岐・合併畳み込みネットワークとホモゲ- 0.72
neous filter capsules. ノイスフィルターカプセル 0.43
arXiv preprint arXiv:2001.09136, 2020. arXiv preprint arXiv:2001.09136, 2020 0.81
[21] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. [21]Dzmitry Bahdanau,kyunghyun Cho,Yoshua Bengio。 0.66
Neural machine translation by jointly learning to align 協調学習によるニューラルネットワークの翻訳 0.58
and translate. arXiv preprint arXiv:1409.0473, 2014. 翻訳して arXiv preprint arXiv:1409.0473, 2014 0.67
[22] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and 22] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser 0.73
Illia Polosukhin. Illia Polosukhin 0.56
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
arXiv preprint arXiv:1706.03762, 2017. arXiv preprint arXiv:1706.03762, 2017 0.79
[23] Max Jaderberg, Karen Simonyan, Andrew Zisserman, and Koray Kavukcuoglu. [23]Max Jaderberg、Karen Simonyan、Andrew Zisserman、Koray Kavukcuoglu。 0.72
Spatial transformer networks. 空間トランスネットワーク。 0.55
arXiv preprint arXiv:1506.02025, 2015. arXiv preprint arXiv:1506.02025, 2015 0.81
[24] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. [24]Kelvin Xu、Jimmy Ba、Ryan Kiros、Kunnghyun Cho、Aaron Courville、Ruslan Salakhudinov、Rich Zemel、Yoshua Bengio。
訳抜け防止モード: [24 ]Kelvin Xu,Jimmy Ba,Ryan Kiros, Yunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel ヨシュア・ベンジオ(Yoshua Bengio)。
Show, attend and tell: Neural image caption generation with visual attention. 展示、出席、および伝える:視覚的な注意を払ってニューラルネットワークのキャプション生成。 0.57
In International conference on machine learning, pages 2048–2057. 機械学習に関する国際会議』2048-2057頁。 0.74
PMLR, 2015. 2015年、PMLR。 0.70
[25] Sanghyun Woo, Jongchan Park, Joon-Young Lee, and In So Kweon. [25] Sanghyun Woo、Jongchan Park、Joon-Young Lee、In So Kweon。 0.83
Cbam: Convolutional block attention module. Cbam: 畳み込みブロックの注意モジュール。 0.77
In Proceedings of the European conference on computer vision (ECCV), pages 3–19, 2018. Proceedings of the European Conference on Computer Vision (ECCV)で、2018年3-19頁。 0.78
[26] Francesco Salvetti, Vittorio Mazzia, Aleem Khaliq, and Marcello Chiaberge. [26] Francesco Salvetti、Vittorio Mazzia、Aleem Khaliq、Marcello Chiaberge。 0.65
Multi-image super resolution of マルチイメージ・スーパーレゾリューション 0.77
remotely sensed images using residual attention deep neural networks. 残存注意深いニューラルネットワークを用いたリモートセンシング画像。 0.77
Remote Sensing, 12(14):2207, 2020. リモートセンシング 12(14):2207, 2020。 0.73
[27] Jaewoong Choi, Hyun Seo, Suii Im, and Myungjoo Kang. [27]Jeewoong Choi、Hyun Seo、S Suii Im、Mungjoo Kang。 0.73
Attention routing between capsules. カプセル間の注意ルーティング。 0.67
In Proceedings of in Proceedings of ~ 0.79
the IEEE International Conference on Computer Vision Workshops, pages 0–0, 2019. IEEE International Conference on Computer Vision Workshops, page 0–0, 2019。 0.86
[28] Yao-Hung Hubert Tsai, Nitish Srivastava, Hanlin Goh, and Ruslan Salakhutdinov. [28] Yao-Hung Hubert Tsai、Nitish Srivastava、Hanlin Goh、Ruslan Salakhutdinov。 0.75
Capsules with inverted dot-product attention routing. 逆転したカプセル ドット製品注意ルーティング。 0.65
arXiv preprint arXiv:2002.04764, 2020. arXiv preprint arXiv:2002.04764, 2020 0.80
[29] Wenkai Huang and Fobao Zhou. [29] Wenkai HuangとFobao Zhou。 0.80
Da-capsnet: dual attention mechanism capsule network. Da-capsnet: 二重注意機構カプセルネットワーク。 0.74
Scientific Reports, 10(1):1–13, 2020. 科学報告。 10(1):1–13, 2020. 0.76
[30] Ayush Jaiswal, Wael AbdAlmageed, Yue Wu, and Premkumar Natarajan. [30]Ayush Jaiswal, Wael AbdAlmageed, Yue Wu, Premkumar Natarajan。 0.70
Capsulegan: Generative adversarial capsule network. Capsulegan: 対向カプセルネットワークの生成。 0.81
In Proceedings of the European Conference on Computer Vision (ECCV) Workshops, pages 0–0, 2018. Proceedings of the European Conference on Computer Vision (ECCV) Workshops, page 0–0, 2018。 0.86
[31] Bruce McIntosh, Kevin Duarte, Yogesh S Rawat, and Mubarak Shah. [31]Bruce McIntosh、Kevin Duarte、Yogesh S Rawat、Mubarak Shah。 0.66
Multi-modal capsule routing for actor and アクタおよびアクタのためのマルチモーダルカプセルルーティング 0.59
action video segmentation conditioned on natural language queries. 自然言語クエリを条件としたアクションビデオセグメンテーション。 0.75
arXiv preprint arXiv:1812.00303, 2018. arXiv preprint arXiv:1812.00303, 2018 0.80
[32] Ningyu Zhang, Shumin Deng, Zhanlin Sun, Xi Chen, Wei Zhang, and Huajun Chen. [32] 寧州Zhang、Shumin Deng、Zhanlin Sun、Xi Chen、Wei Zhang、Huajun Chen。 0.70
Attention-based capsule networks with dynamic routing for relation extraction. 注意型カプセル 関係抽出のための動的経路を持つネットワーク 0.76
arXiv preprint arXiv:1812.11321, 2018. arXiv preprint arXiv:1812.11321, 2018 0.79
[33] Yongping Du, Xiaozheng Zhao, Meng He, and Wenyang Guo. 33] Yongping Du、Xiaozheng Zhao、Meng He、およびWenyang Guo。 0.70
A novel capsule based hybrid neural network for カプセル型ハイブリッドニューラルネットワークの開発 0.52
sentiment classification. IEEE Access, 7:39321–39328, 2019. 感情分類。 IEEE Access, 7:39321–39328, 2019。 0.71
[34] Kevin Duarte, Yogesh S Rawat, and Mubarak Shah. [34]Kevin Duarte、Yogesh S Rawat、Mubarak Shah。 0.65
Videocapsulenet: A simplified network for action detection. videocapsulenet: アクション検出のためのシンプルなネットワーク。 0.85
arXiv preprint arXiv:1805.08162, 2018. arXiv preprint arXiv:1805.08162, 2018 0.79
[35] Rodney LaLonde and Ulas Bagci. 35]Rodney LaLondeとUlas Bagci。 0.60
Capsules for object segmentation. オブジェクトセグメンテーション用のカプセル。 0.71
arXiv preprint arXiv:1804.04241, 2018. arXiv preprint arXiv:1804.04241, 2018 0.78
[36] Huy H Nguyen, Junichi Yamagishi, and Isao Echizen. [36]Huy H Nguyen, Junichi Yamagishi, Isao Echizen。 0.69
Capsule-forensics: Using capsule networks to detect forged images and videos. capsule-forensics: カプセルネットワークを使用してforgedイメージとビデオを検出する。 0.69
In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 2307–2311. ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) において、2307–2311頁。 0.86
IEEE, 2019. IEEE、2019年。 0.86
[37] Aryan Mobiny, Hengyang Lu, Hien V Nguyen, Badrinath Roysam, and Navin Varadarajan. [37]Aryan Mobiny, Hengyang Lu, Hien V Nguyen, Badrinath Roysam, Navin Varadarajan。 0.71
Automated classification of apoptosis in phase contrast microscopy using capsule network. カプセルネットワークを用いた位相コントラスト顕微鏡におけるアポトーシスの自動分類 0.80
IEEE transactions on medical imaging, 39(1):1–10, 2019. IEEEの医療画像取引、39(1):1–10、2019。 0.81
[38] KR Kruthika, HD Maheshappa, Alzheimer’s Disease Neuroimaging Initiative, et al. 38] KR Kruthika, HD Maheshappa, Alzheimer’s Disease Neuroimaging Initiative, など。 0.71
Cbir system using capsule カプセルを用いたCbirシステム 0.73
networks and 3d cnn for alzheimer’s disease diagnosis. アルツハイマー病の診断のためのネットワークと3d cnn。 0.75
Informatics in Medicine Unlocked, 14:59–68, 2019. Informatics in Medicine Unlocked, 14:59-68, 2019 0.82
[39] Sergey Ioffe and Christian Szegedy. 39] サーゲイ・アイフとクリスチャン・セゲディー。 0.50
Batch normalization: Accelerating deep network training by reducing internal バッチ正規化:内部の削減によるディープネットワークトレーニングの高速化 0.68
covariate shift. arXiv preprint arXiv:1502.03167, 2015. 共変シフト arXiv preprint arXiv:1502.03167, 2015 0.67
14 14 0.85
[40] Yann LeCun. [40]Yann LeCun。 0.70
The mnist database of handwritten digits. 手書きの数字のmnistデータベース。 0.63
http://yann. http://yann.com。 0.51
lecun. com/exdb/mnist/, 1998. レクン com/exdb/mnist/, 1998。 0.55
[41] Diederik P Kingma and Jimmy Ba. 41] Diederik P KingmaとJimmy Ba。 0.71
Adam: A method for stochastic optimization. Adam: 確率最適化の方法です。 0.69
arXiv preprint arXiv:1412.6980, arXiv preprint arXiv:1412.6980 0.72
2014. [42] Dan Ciregan, Ueli Meier, and Jürgen Schmidhuber. 2014. [42] Dan Ciregan、Ueli Meier、Jürgen Schmidhuber。 0.75
Multi-column deep neural networks for image classification. 画像分類のための多列深層ニューラルネットワーク 0.79
In 2012 IEEE conference on computer vision and pattern recognition, pages 3642–3649. 2012年ieee conference on computer vision and pattern recognition, pages 3642–3649。 0.79
IEEE, 2012. 2012年、IEEE。 0.66
[43] Li Wan, Matthew Zeiler, Sixin Zhang, Yann Le Cun, and Rob Fergus. 43] Li Wan, Matthew Zeiler, Sixin Zhang, Yann Le Cun, Rob Fergus。 0.69
Regularization of neural networks using ニューラルネットワークの正規化 0.62
dropconnect. ドロップコネクション 0.41
In International conference on machine learning, pages 1058–1066, 2013. 機械学習に関する国際会議で、1058-1066ページ、2013。 0.73
[44] Kamran Kowsari, Mojtaba Heidarysafa, Donald E Brown, Kiana Jafari Meimandi, and Laura E Barnes. Kamran Kowsari氏、Mojtaba Heidarysafa氏、Donald E Brown氏、Kiana Jafari Meimandi氏、Laura E Barnes氏。 0.73
Rmdl: Random multimodel deep learning for classification. Rmdl: 分類のためのランダムなマルチモデルディープラーニング。 0.67
In Proceedings of the 2nd International Conference on Information System and Data Mining, pages 19–28, 2018. 第2回情報システムおよびデータマイニングに関する国際会議の進行状況、2018年19-28ページ。 0.78
[45] Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky. 45] Dmitry Ulyanov、Andrea Vedaldi、Victor Lempitsky。 0.63
Instance normalization: The missing ingredient for fast インスタンスの正規化: 高速な要素の欠如 0.65
stylization. arXiv preprint arXiv:1607.08022, 2016. 様式化 arXiv preprint arXiv:1607.08022, 2016 0.65
15 15 0.85

翻訳にはFugu-Machine Translatorを利用しています。