論文の概要、ライセンス

# (参考訳) 表情認識のための局所的マルチヘッドチャネル自己認識 [全文訳有]

Local Multi-Head Channel Self-Attention for Facial Expression Recognition ( http://arxiv.org/abs/2111.07224v2 )

ライセンス: CC BY 4.0
Roberto Pecoraro, Valerio Basile, Viviana Bono, Sara Gallo(参考訳) 2017年にTransformerアーキテクチャが導入されて以来、コンピュータビジョンの分野で自己注意パラダイムを導入する試みが数多く行われている。 本稿では,事実上すべての畳み込みニューラルネットワークに容易に統合でき,コンピュータビジョンのために特別に設計された新しい自己注意モジュール LHC: Local (multi) Head Channel (self-attention)を提案する。 第一に、コンピュータビジョンにおいて、自己注意パラダイムを利用する最善の方法は、より探究された空間的注意ではなくチャネル回りのアプリケーションであり、畳み込みは、再帰的ネットワークがnlpにあるような注意モジュールに置き換えられず、第二に、局所的なアプローチは、グローバルな注意よりも畳み込みの限界を克服する可能性を秘めている。 lhc-net では,これまでの sota と比較した場合の計算コストの観点から,複雑性と "ホスト" アーキテクチャへの影響を大幅に低減した,有名な fer2013 データセット の新たな最先端を実現することができました。

Since the Transformer architecture was introduced in 2017 there has been many attempts to bring the self-attention paradigm in the field of computer vision. In this paper we propose a novel self-attention module that can be easily integrated in virtually every convolutional neural network and that is specifically designed for computer vision, the LHC: Local (multi) Head Channel (self-attention). LHC is based on two main ideas: first, we think that in computer vision the best way to leverage the self-attention paradigm is the channel-wise application instead of the more explored spatial attention and that convolution will not be replaced by attention modules like recurrent networks were in NLP; second, a local approach has the potential to better overcome the limitations of convolution than global attention. With LHC-Net we managed to achieve a new state of the art in the famous FER2013 dataset with a significantly lower complexity and impact on the "host" architecture in terms of computational cost when compared with the previous SOTA.
公開日: Thu, 18 Nov 2021 17:09:03 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 v o N 8 1 1 2 0 2 v o n 8 1 である。 0.53
] V C . s c [ ] 略称はC。 sc [ 0.39
2 v 4 2 2 7 0 2 v 4 2 2 7 0 0.42
. 1 1 1 2 : v i X r a . 1 1 1 2 : v i X r a 0.42
Rev 9 - 11/18/2021 First Rev 10/15/2021 Rev 9 - 11/18/2021 First Rev 10/15/2021 0.29
Local Multi-Head Channel Self-Attention for Facial Expression Recognition Roberto Pecoraro1, Valerio Basile2, Viviana Bono3, Sara Gallo4 roberto pecoraro1, valerio basile2, viviana bono3, sara gallo4による表情認識のための局所的マルチヘッドチャネル自己アテンション
訳抜け防止モード: 局所多チャンネル自己認識 -Roberto Pecoraro1の表情認識への注意- Valerio Basile2, Viviana Bono3, Sara Gallo4
0.70
Abstract Since the Transformer architecture was introduced in 2017 there has been many attempts to bring the selfattention paradigm in the field of computer vision. 概要 トランスフォーマーアーキテクチャが2017年に導入されて以来、コンピュータビジョンの分野で自己意識パラダイムを導入する試みが数多く行われてきた。 0.67
In this paper we propose a novel self-attention module that can be easily integrated in virtually every convolutional neural network and that is specifically designed for computer vision, the LHC: Local (multi) Head Channel (self-attention). 本稿では,事実上すべての畳み込みニューラルネットワークに容易に統合でき,コンピュータビジョンのために特別に設計された新しい自己注意モジュール LHC: Local (multi) Head Channel (self-attention)を提案する。 0.84
LHC is based on two main ideas: first, we think that in computer vision the best way to leverage the self-attention paradigm is the channel-wise application instead of the more explored spatial attention and that convolution will not be replaced by attention modules like recurrent networks were in NLP; second, a local approach has the potential to better overcome the limitations of convolution than global attention. 第一に、コンピュータビジョンにおいて、自己注意パラダイムを利用する最善の方法は、より探究された空間的注意ではなくチャネル回りのアプリケーションであり、畳み込みは、再帰的ネットワークがnlpにあるような注意モジュールに置き換えられず、第二に、局所的なアプローチは、グローバルな注意よりも畳み込みの限界を克服する可能性を秘めている。 0.59
With LHC-Net we managed to achieve a new state-of-the-art in the famous FER2013 dataset with a significantly lower complexity and impact on the “host” architecture in terms of computational cost when compared with the previous SOTA. LHC-Netでは、従来のSOTAと比較した場合の計算コストの観点から、複雑性と"ホスト"アーキテクチャへの影響を大幅に低減した、有名なFER2013データセットにおいて、新たな最先端の達成に成功しました。 0.55
1Department of Computer Science, University of Turin, Italy 10124 - roberto.pecoraro@uni to.it; robertopecoraro@live .com 2Department of Computer Science, University of Turin, Italy 10124 - valerio.basile@unito .it 3Department of Computer Science, University of Turin, Italy 10124 - bono@di.unito.it 4Department of Computer Science, University of Turin, Italy 10124 - sara.gallo@unito.it 1Department of Computer Science, Italy 10124 - bono@di.unito.it 4Department of Computer Science, Italy 10124 - sara.gallo@unito.it 3Department of Computer Science, Italy 10124 - valerio.basile@unito .it 3Department of Computer Science, Italy 10124 - bono@di.unito.it 4Department of Computer Science, Turin, Italy 10124 - sara.gallo@unito.it 0.42
Channel (self-attention) Network. Channel (self-attention) ネットワーク。 0.85
In the context of a wider research focused on the recognition of human emotions we tested LHC-Net on the FER2013 dataset, a dataset for facial emotion recognition [2]. 人間の感情の認識に焦点を当てた幅広い研究の文脈において、顔の感情認識のためのデータセットであるFER2013データセット上でLHC-Netをテストした。 0.61
FER2013 was the object of a 2013 Kaggle competition. FER2013は2013年のカグル・コンペティションの対象となった。 0.73
It is a dataset composed of 35587 grey-scale 48x48 images of faces classified in 7 categories: anger, disgust, fear, happiness, sadness, surprise, neutral. これは、怒り、嫌悪、恐怖、幸福、悲しみ、驚き、中立という7つのカテゴリに分類される顔の35587グレースケール48×48の画像からなるデータセットである。 0.61
The dataset is divided in a training set (28709 images), a public test set (3589 images), which we used as validation set, and a private test set (3589 images), usually considered the test set for final evaluations. データセットはトレーニングセット(28709画像)と、検証セットとして使用するパブリックテストセット(3589画像)と、最終評価のためのテストセットと見なされるプライベートテストセット(3589画像)に分けられる。 0.72
FER2013 is known as a challenging dataset because of its noisy data with a relatively large number of non-face images and misclassifications. FER2013は、比較的多数の非顔画像と誤分類を持つノイズの多いデータのため、挑戦的なデータセットとして知られている。 0.61
It is also strongly unbalanced, with only 436 samples in the less populated category, “Disgust”, and 7215 samples in the more populated category, “Happiness”: また、人口の少ないカテゴリーである「嫌悪」のサンプルは436個、より人口の少ないカテゴリーである「幸福」のサンプルは7215個である。 0.68
Contents LHC-Net 内容 LHC-Net 0.33
1 Introduction 1 Related work 2 1.1 Attention . . . . 1 導入 1 関連作業 2 1.1 注目点 0.62
. . . . . . . . . . . . . . . . 0.42
. . . . . . . . . . . . . . . . 0.42
. . . . . . . . . . . . . . . . 0.42
. 2 1.2 FER2013 . . . . . 2 1.2 FER2013 . . . . 0.43
. . . . . . . . . . . . . . . . 0.42
. . . . . . . . . . . . . . . . 0.42
. . . . . . . . . . . . . . . . 0.42
. 3 2 4 2.1 Architecture . . . . . 3 2 4 2.1 Architecture . . . . 0.46
. . . . . . . . . . . . . . . . 0.42
. . . . . . . . . . . . . . . . 0.42
. . . . . . . 4 2.2 Motivation and Analysis . . . . . . . . 4.2モチベーションと分析 0.34
. . . . . . . . . . . . . . . . 0.42
. . . . . . . . . . . . 0.42
5 7 3 4 9 10 5 11 5 7 3 4 9 10 5 11 0.43
Experiments Conclusions and Future Developments Acknowledgment References 実験の結論と今後の展開 0.65
Introduction The aim of this work is to explore the capabilities of the selfattention paradigm in the context of computer vision, more in particular, in the facial expression recognition. はじめに 本研究の目的は,コンピュータビジョンの文脈において,特に表情認識において,自己愛パラダイムの能力を探求することである。 0.60
In order to do that we designed a new channel self-attention module, the LHC, which is thought as a processing block to be integrated into a pre-existing convolutional architecture. そこで我々は,既存の畳み込みアーキテクチャに統合される処理ブロックと考えられる新しいチャネル自己保持モジュール LHC を設計した。
訳抜け防止モード: そのため、私たちは新しいチャンネルセルフ-アテンションモジュールを設計しました。 lhcは 既存の畳み込みアーキテクチャに統合される処理ブロックだと考えられている。
0.73
It inherits the basic skeleton of the self-attention module from the very well known Transformer architecture by Vaswani et al [1] with a new design thought to improve it and adapt it as an element of a computer vision pipeline. これはvaswani et al [1]による非常によく知られたトランスフォーマーアーキテクチャから自己着脱モジュールの基本骨格を継承し、それを改良し、コンピュータビジョンパイプラインの要素として適合させる新しい設計である。 0.79
We call the final architecture LHC-Net: Local (multi-)Head LHC-Netの最終アーキテクチャをLocal (multi-)Headと呼びます。 0.76
英語(論文から抽出)日本語訳スコア
Local Multi-Head Channel Self-Attention for Facial Expression Recognition — 2/12 表情認識のための局所的マルチヘッドチャネルセルフアテンション - 2/12 0.75
Figure 1. Five LHC modules integrated into a ResNet34v2 architecture. 図1に示す。 resnet34v2アーキテクチャに統合された5つのlhcモジュール。 0.50
Every module features a residual connection to obtain an easier integration, especially when pre-training is used for the backbone architecture. すべてのモジュールは、特にバックボーンアーキテクチャの事前トレーニングに使用される場合、統合を容易にするために、残留接続を備えている。
訳抜け防止モード: すべてのモジュールは残余接続を特徴とする バックボーンアーキテクチャのトレーニングにプリ-トレーニングを使用する場合,特にそうだ。
0.68
LHC-Net should be generally considered as a family of neural network architectures having a backbone represented by a convolutional neural network in which one or more LHC modules are integrated. LHC-Netは一般的に、1つ以上のLHCモジュールが統合された畳み込みニューラルネットワークで表されるバックボーンを持つニューラルネットワークアーキテクチャのファミリーと見なされるべきである。 0.74
More specifically, in this paper, we will refer to LHC-Net as a ResNet34 [3] having integrated 5 LHC modules as shown in Figure 1. より具体的には、図1に示すように、lhc-net を resnet34 [3] とし、5つの lhc モジュールを統合する。 0.63
For this reason LHC-Net is a general purpose computer vision architecture since it doesn’t feature any specific solution designed for facial expression recognition. このためLHC-Netは、表情認識用に設計された特定のソリューションを特徴としないため、汎用的なコンピュータビジョンアーキテクチャである。 0.72
In our experiments, LHC-Net achieved a classification accuracy on the private test set of FER2013 which is, to the best of our knowledge (and accordingly with the paperswithcode’s leaderboard at the time this paper is being written), the current single deep learning model state-of-the-art both with and without test time augmentation, with a computational cost which is only a fraction of the previous SOTA architecture. 我々の実験では、LHC-NetはFER2013のプライベートテストセットの分類精度を達成し、私たちの知る限り(この論文の執筆時点でのペーパーウィズコードのリーダーボードに従えば)、従来のSOTAアーキテクチャのほんの一部の計算コストで、現在の1つのディープラーニングモデルがテスト時間増強と非テスト時間増強の両立を図っている。 0.68
1. Related work 1.1 Attention The attention paradigm became very popular in the last few years with a large variety of mechanics and implementations in both NLP and computer vision scenarios. 1.関連作品 1.1 注意 注意パラダイムは、NLPとコンピュータビジョンの両方のシナリオで様々なメカニクスと実装によって、ここ数年で非常に人気を博した。 0.71
There are two main attention paradigms: either we pay attention to the data with the idea of enhancing the most meaningful aspects or we can try to exploit the inner relationships within these aspects in order to produce a more meaningful representation of the data. 最も意味のある側面を強化するという考え方でデータに注意を払うか、より意味のあるデータ表現を生み出すために、これらの側面の内部の関係を活用しようとするかの2つの主要なパラダイムがあります。 0.68
The latter approach is usually called self-attention because in some way the data pays attention to itself. 後者のアプローチは通常、データが自分自身に注意を払うため、自己注意と呼ばれる。 0.74
The first approach was introduced in 2014 by Bahdanau et al. 最初のアプローチは2014年にBahdanauらによって導入された。 0.67
[4] an updated by Luong et al in 2015 [5]. 2015年にLuongらによって更新された[4][5]。 0.76
The proposed solutions were used in neural machine translation and integrated in a classic “seq to seq” encoder/decoder architecture in which the decoder learns what are the outputs of the encoder where to pay more attention dinamically. 提案したソリューションは、ニューラルネットワークの翻訳に使われ、古典的な“seq to seq”エンコーダ/デコーダアーキテクチャに統合され、デコーダはエンコーダの出力を学習し、ダイナミカルに注意を払う。 0.77
Self-attention was introduced in 2017 by Vaswani et al [1] (again for neural machine translation) and it is considered by many the greatest breakthrough technology in AI since the backpropagation was introduced in 1986 [6]. 自尊心は 2017年にVaswani et al [1](これもニューラルマシン翻訳)によって導入され、1986年にバックプロパゲーションが導入されて以来、AIにおいて最も画期的な技術だと考えられている[6]。 0.62
It fully replaced the previous state of the art technologies, the recurrent and convolutional networks, in NLP. 以前のnlpのアート技術であるrecurrent and convolutional networksを完全に置き換えた。
訳抜け防止モード: それは、過去の技術、再帰的および畳み込み的ネットワークを完全に置き換えた。 NLP。
0.58
Since then there has been many attempts to bring selfattention in computer vision but, as of now, with only partial success. それ以来、コンピュータビジョンに自己注意をもたらす試みは数多くあったが、今のところ部分的には成功していない。 0.68
As opposite as the NLP case, in computer vision selfattention struggles to outperform the SOTA computer vision architectures like the classical Inception [7], ResNet [3], VGG, [8] etc. NLPの場合とは逆で、コンピュータビジョンにおける自己注意は、古典的インセプション[7]、ResNet[3]、VGG、[8]といったSOTAコンピュータビジョンアーキテクチャよりも優れています。 0.70
In computer vision there are several type of attentions paradigms, for clarity from now on we will use the following nomenclature: コンピュータビジョンでは、注意のパラダイムにはいくつかの種類があります。
訳抜け防止モード: コンピュータビジョンには、いくつかのタイプの注意パラダイムがある。 これからは 以下の命名法を 使います
0.66
• Global Attention: usually it is only a module used before another model with the idea to enhance the important parts of an image and to ignore the rest of the image. • グローバルな注意: 通常、イメージの重要な部分を拡張し、残りの部分を無視するというアイデアを持つ、別のモデルで使用されるモジュールのみである。 0.85
• Spatial Attention: the attention modules focus on sin- •空間的注意:注意モジュールは罪に焦点を当てる 0.78
gle pixels or areas of the feature maps. gleピクセルまたはフィーチャーマップの領域。 0.66
• Channel Attention: the attention modules focus on •チャンネル注意:注目モジュールはフォーカスする 0.78
entire feature maps. • Self-Attention: the attention tries to find relationships 全機能マップ。 •自己注意:注意は関係を見つけようとする 0.78
between different aspects of the data. データの様々な側面を区別します 0.74
• Stand-Alone Attention: the architecture is aimed at fully replacing the convolutional blocks and defining a new processing block for computer vision based on some attention mechanism (mostly self-attention). • スタンドアローン注意: アーキテクチャは、畳み込みブロックを完全に置き換え、注意機構(主に自己注意)に基づいて、コンピュータビジョンのための新しい処理ブロックを定義することを目的としている。 0.70
Xu et al proposed a global attention module for medical image classification [9], this module pre-processes images Xuらは医療画像分類のためのグローバルアテンションモジュール[9]を提案した。
訳抜け防止モード: xuらによる医用画像分類のためのグローバルアテンションモジュールの提案 [9] このモジュールはイメージを前処理する
0.75
英語(論文から抽出)日本語訳スコア
Local Multi-Head Channel Self-Attention for Facial Expression Recognition — 3/12 表情認識のための局所的マルチヘッドチャネルセルフアテンション - 3/12 0.76
enhancing important areas pixel by pixel before feeding them into a standard convolutional neural network. 標準の畳み込みニューラルネットワークに入力する前に、重要な領域をピクセル単位で拡張する。 0.66
This kind of pre-processing is thought to make more robust the following convolution processing. この種の前処理は、次の畳み込み処理をより堅牢にすると考えられている。 0.60
It could be associated to the one proposed by Jaderberg et al [10] which attempts to compensate for the lack of rotation/scaling invariance of the convolution paradigm. これは、畳み込みパラダイムの回転/スケーリング不変性の欠如を補償しようとするjaderbergら (10) によって提案されたものと関係している可能性がある。 0.57
The proposed module learns a sample-dependant affine transformation to be applied to images in order to make them centered and properly scaled/rotated. 提案モジュールは, サンプル依存アフィン変換を画像に適用して, 中央に配置し, 適切にスケール/回転させる。 0.71
The channel approach we propose in this paper, despite being relatively unexplored in our self-attention mode, is instead very popular when associated with vanilla attention. 本論文で提案するチャネルアプローチは,自己着脱モードでは比較的未検討だが,バニラ注意を伴う場合,その代わりに非常に人気がある。 0.66
Hu et al proposed the SE-Net (Squeeze and Excitation) [11], a simple and effective module which enhances the more important features of a convolutional block. huらによって提案されたse-net (squeeze and excitation) [11]は、畳み込みブロックのより重要な特徴を強化するシンプルで効果的なモジュールである。 0.68
Squeeze and excitation lately became a key module in the very popular Efficient-Net by Tan et al [12] which set a new SOTA on several benchamrk datasets. 最近、swish and excitation は、いくつかのbenchamrkデータセットに新しい sota を設定した tan et al [12] による非常に人気のある efficient-net のキーモジュールとなった。 0.57
Similarly Woo et al proposed the CBAM (Convolutional Block Attention Module), a sequential module composed of a spatial and a channel attention sub-modules [13]. 同様に、WooらはCBAM(Convolutional Block Attention Module)を提案した。
訳抜け防止モード: 同様にWooらはCBAM(Convolutional Block Attention Module )を提案した。 空間とチャネルアテンションサブ - モジュール [13 ] で構成されるシーケンシャルモジュール。
0.84
There are other examples of channel and spatial vanilla attention: ECA-Net (Efficient Channel Attention) by Wang et al. その他の例としては、wangらによるeca-net( effective channel attention)がある。 0.57
[14] is a new version of Squeeze and Excitation; SCA-CNN (Spatial and Channel-wise attention) proposed by Chen et al [15] combines both spatial and channel vanilla attention for image captioning. SCA-CNN (Spatial and Channel-wise attention, Spatial and Channel-wise attention) by Chen et al [15] は画像キャプションに空間的およびチャネル的バニラ的注意を組み合わせている。 0.75
URCA-GAN by Nie et al [16] is a GAN (Generative Adversarial Network) featuring a residual channel attention mechanism thought for image-to-image translation. URCA-GAN by Nie et al [16] は、画像から画像への翻訳を目的とした残差チャネルアテンション機構を備えたGAN(Generative Adversarial Network)である。 0.70
Channel attention wasn’t used only in vanilla approaches; similarly to our architecture Fu et al , Liu et al and Tian et al. proposed self-attention architectures [17], [18], [19] respectively for scene segmentation, feature matching between pairwise images and video segmentation. Fu et al , Liu et al , Tian et al. が提案した自己注意型アーキテクチャ [17], [18], [19] は,それぞれシーンセグメンテーション, ペアワイズイメージとビデオセグメンテーションの機能マッチングである。
訳抜け防止モード: チャネルの注意はバニラアプローチだけでは使われませんでした。 liu et al and tian et al . proposed self - attention architectures [17] [18],[19]それぞれシーンセグメンテーションを行う。 ペアワイズ画像とビデオセグメンテーション間の特徴マッチング。
0.63
The main differences between these modules and ours are the following: これらのモジュールと当社の主な違いは次のとおりです。 0.83
• in all of them channel attention always has a secondary role and there’s always a spatial attention sub-module with a primary role •これらすべてにおいて、チャンネルアテンションは常にセカンダリの役割を持ち、プライマリロールを持つ空間アテンションサブモジュールが常に存在する。 0.67
• in all of them the crucial multi-head structure is lacking •これらすべてにおいて、重要なマルチヘッド構造が欠如している 0.64
• all of them implement channel attention as a “passive” • チャンネルの注意を“パッシブ”として実装する 0.62
non-learning module • none of them integrates our local spatial behavior for 非学習モジュール • いずれも我々の局所的な空間的行動を統合するものではありません 0.67
channel attention • none of them integrates our dynamic scaling which is チャンネルの注意 • いずれも動的スケーリングを統合していません。 0.76
very specific of our architecture. 建築に特化しています 0.59
As opposite as channel self-attention, spatial self-attention is widely explored, in most cases with the ambitious goal of totally replacing the convolution in computer vision, just like Vaswani’s Transformer made LSTM obsolete. チャネルの自己意識とは逆の、空間的な自己意識は、多くの場合、コンピュータビジョンにおける畳み込みを完全に置き換えるという野心的な目標によって、広く研究されている。 0.55
Bello et al proposed an attention-augmented convolutional network [20] in which Vaswani’s self-attention is straightforwardly applied to pixels representations and integrated in a convolutional neural network. belloらは注意喚起畳み込みネットワーク[20]を提案し、vaswaniの自己照準を直接ピクセル表現に適用し、畳み込みニューラルネットワークに統合した。 0.66
Similarly Wu et al proposed the Visual Transformer [21], an architecture in which many “tokens” (i.e., image sections derived from a spatial attention module) are feeded into a transformer. 同様に、Wuらが提案したVisual Transformer [21]は、多くの“トークン”(空間的注意モジュールから派生した画像セクション)を変換器に供給するアーキテクチャである。 0.80
The entire block is integrated in a convolutional network. ブロック全体が畳み込みネットワークに統合される。 0.66
The Visual Transformer is inspired by ViT, the Vision Transformer by Dosovitskiy et al [22], ViT is a standalone spatial self-attention architecture in which the transformer’s inputs are patches extracted from the tensor image. 視覚トランスフォーマーは、dosovitskiy et al [22]による視覚トランスフォーマーであるvitにインスパイアされ、vitは、トランスフォーマーの入力がテンソルイメージから抽出されたパッチであるスタンドアロンの空間的自己アテンションアーキテクチャである。 0.68
Previous attempts to implement stand-alone spatial attention were done by Ramachandran et al [23] and Parmar et al [24]. 前回はramachandran et al [23] と parmar et al [24] による単独の空間的注意の実施の試みが行われた。 0.75
Spatial self-attention was also used in GANs by Zhang et al. with their SAGAN (Self-Attention Generative Adversarial Network) [25]. 空間的自己意識は、ZhangらによってSAGAN(Self-Attention Generative Adversarial Network)[25]と共にGANでも使用された。 0.63
More recently Liu et al and Dai et al proposed other two spatial stand-alone self-attention architectures, respectively the Swin Transformer [26] and the CoAtNet [27] (depthwise Convolution and self-Attention). より最近では、Liu et al と Dai et al は、それぞれ Swin Transformer [26] と CoAtNet [27] (詳細は、畳み込みと自己アテンション) という、2つの空間的なスタンドアローンの自己アテンションアーキテクチャを提案した。
訳抜け防止モード: 最近では、Liu et al と Dai et al が他の2つの空間的スタンドを提案した。 -自己のみ Swin Transformer [26 ] と CoAtNet [27 ] (Deepwise Convolution と self - Attention ) のそれぞれのアーキテクチャ。
0.65
We can think at stand-alone architectures as attempts of rethinking convolution and replace it in a way able to address its limitations. スタンドアロンアーキテクチャは、畳み込みを再考し、その制限に対処できる方法で置き換える試みだと考えることができます。 0.60
Many improvements of convolution were proposed, mainly to make them invariant for more general transformations than translations, such as the Deep Simmetry Network proposed by Gens et al [28] or the Deformable Convolutional Network by Dai et al [29]. 例えば、gens et al [28] によって提案されたディープシンメトリーネットワークや dai et al [29] による変形可能な畳み込みネットワークなどである。
訳抜け防止モード: 畳み込みの多くの改良が提案され、主に翻訳よりも一般的な変換に不変である。 例えば、Gensらによって提案されたDeep Simmetry Network [28 ] あるいはDai et al [29 ]による変形可能な畳み込みネットワークです。
0.70
Both ViT and CoAtNet can be considered the current state of the art on Imagenet but they outperform Efficient Net by only a very small margin [30] and at the price of a complexity up to 30x and of a pre-training on the prohibitive JFT-3B dataset containing 3 billions of images. vitとcoatnetは共に、imagenetの現在の技術と見なすことができるが、効率のよいネットをほんのわずかなマージン[30]と30倍の複雑さと30億のイメージを含む制限付きjft-3bデータセットの事前トレーニングのコストで上回っている。 0.73
These are good reasons for considering convolution not yet fully replaceable by self-attention in computer vision. これらは、コンピュータビジョンにおける自己注意によって、まだ完全に置き換えられていない畳み込みを考える適切な理由である。 0.42
But the main reason we didn’t pursue the goal of a stand-alone architecture is that we don’t believe in the main assumption spatial self-attention is based on in computer vision. しかし、私たちがスタンドアロンアーキテクチャの目標を追求しなかった主な理由は、空間的自己意識がコンピュータビジョンに基づいているという前提を信じていないからです。 0.77
Selfattention had a great success in NLP because it eventually exploited the inner relationships between the words in a phrase which sequential approaches were not able to model effectively. セルフアテンションは、逐次的アプローチが効果的にモデル化できなかったフレーズ内の単語間の内的関係を最終的に活用したため、nlpで大きな成功を収めた。 0.70
Every word in a sentence has a strong well defined relationship with any other word in that phrase, and they finally form a complex structure composed of these relationships. 文中のすべての単語は、その句中の他の単語と強く明確に定義された関係を持ち、最終的にこれらの関係からなる複雑な構造を形成する。 0.70
But, for instance, if we take a picture of a landscape we see no reason to believe that such a relationship could exist between a rock on the ground and a cloud in the sky or, even more extremely, between two random pixels, at least not in the same way the subject of a phrase is related to its verb. しかし、例えば、風景の写真を撮ると、地上の岩と空にある雲の間にそのような関係が存在する、あるいはさらに極端に2つのランダムピクセルの間に存在すると考える理由がない。
訳抜け防止モード: しかし、例えば、風景の写真を撮ると、地上の岩の間にそのような関係が存在すると考える理由はない。 空に浮かぶ雲や さらに極端に 少なくとも同じ方法では、2つのランダムなピクセルの間に 句の主題は動詞に関連している。
0.67
On the other hand this observation does not hold for the features extracted from a picture, and the best way we know, so far, to extract features from a picture is convolution. 一方、この観察は、画像から抽出された特徴を保たず、これまで我々が知る限り、画像から特徴を引き出す最善の方法は、畳み込みである。 0.63
These are the main reasons we decided to further explore channel selfattention in synergy with convolution, not as a stand-alone solution. これらの主な理由は、スタンドアローンのソリューションではなく、畳み込みによるシナジーにおけるチャネルの自己意識をさらに探求することを決めました。 0.54
1.2 FER2013 As mentioned before FER2013 is a challenging dataset for facial expressions recognition. 1.2 FER2013 前述したFER2013は、顔認識のための挑戦的なデータセットである。 0.57
As reported by Goodfellow et al. even human accuracy on FER2013 is limited to 65± 5% Goodfellowらによる報告によると、FER2013の精度は65± 5%に制限されている。 0.74
英語(論文から抽出)日本語訳スコア
Local Multi-Head Channel Self-Attention for Facial Expression Recognition — 4/12 表情認識のための局所的マルチヘッドチャネルセルフアテンション - 4/12 0.75
[2]. Tang et al [2] successfully used linear support vector machines reaching 71.16% accuracy. [2]. Tang et al [2] は線形支持ベクトルマシンを71.16%の精度で成功させた。 0.53
Minaee et al achieved 70.02% accuracy using a convolutional neural network augmented with a global spatial attention module [31]. Minaeeらは,グローバル空間アテンションモジュール[31]を付加した畳み込みニューラルネットワークを用いて,70.02%の精度を達成した。 0.66
Pramerdorfer et al experimented several architectures on FER2013 reaching 71.6% accuracy with Inception, 72.4% with ResNet and 72.7% with VGG [32]. PramerdorferらはFER2013でいくつかのアーキテクチャを実験し、Inceptionで71.6%、ResNetで72.4%、VGG[32]で72.7%に達した。 0.58
Khanzada et al managed to achieve 72.7% accuracy with SE-ResNet50 and 73.2% with ResNet50 [33]. Khanzadaらは、SE-ResNet50で72.7%、ResNet50で73.2%の精度を達成した[33]。 0.61
Khaireddin et al reached 73.28% accuracy using VGG with a specific hyper-parameters fine tuning [34]. K hairdin et al は VGG を用いて 73.28% の精度を達成した。 0.57
Pham et al designed the ResMaskingNet which is a ResNet backbone augmented with a spatial attention module based on the popular U-Net, a segmentation network mostly used in medical image processing. PhamらはResMaskingNetを設計した。ResMaskingNetは、広く使われているU-Netに基づく空間的注意モジュールを備えたResNetのバックボーンで、主に医用画像処理に使われるセグメンテーションネットワークである。 0.62
ResMaskingNet achieves the remarkable accuracy of 74.14%. ResMaskingNetは74.14%の精度を達成した。 0.72
Pham et al also reported that an ensemble of 6 convolutional neural networks, including ResMaskingNet, reaches 76.82% accuracy [35]. Phamらはまた、ResMaskingNetを含む6つの畳み込みニューラルネットワークのアンサンブルが76.82%の精度[35]に達したと報告している。 0.63
2. LHC-Net As already mentioned and shown in Figure 1 our LHC module can be integrated in virtually any existing convolutional architecture, including of course AlexNet [36], VGG [8], Inception [7] and ResNet [3]. LHC-Net 図1で述べたように、私たちのLHCモジュールは、もちろんAlexNet [36]、VGG [8]、Inception [7]、ResNet [3]を含む、ほとんどすべての既存の畳み込みアーキテクチャに統合できます。 0.48
In this section we will give a detailed mathematical definition of LHC as shown in Figure 2, starting from a generic tensor and forward propagating it through the entire architecture. 本節では、図2に示すような LHC の詳細な数学的定義を、一般的なテンソルから始めて、アーキテクチャ全体を通してそれを伝播する。 0.65
2.1 Architecture We first need to define the model hyper-parameters: let n ∈ N+ be the number of local heads, s ∈ N+ the kernel size of the convolution we will use to process the value tensor, p ∈ N+ the pool size used in average pooling and max pooling blocks, d ∈ N+ the embedding dimension of every head and g ∈ R≥0 a constant we will need in the dynamic scaling module. 2.1アーキテクチャ 最初にモデルハイパーパラメータを定義する必要がある: n ∈ n+ をローカルヘッドの数とし、 s ∈ n+ をテンソルの処理に使用する畳み込みのカーネルサイズ、p ∈ n+ 平均プーリングや最大プーリングブロックで使用されるプールサイズ、d ∈ n+ あらゆるヘッドの埋め込み次元、g ∈ r≥0 を動的スケーリングモジュールに必要な定数とする。 0.79
Let x ∈ RH,W,C be a generic input tensor, where H, W and C are respectively the height, width and number of channels, with the constraint that HxW must be divisible by n. x ∈ RH,W,C を一般的な入力テンソルとし、H, W, C はそれぞれ高さ、幅、チャネル数であり、HxW は n で割り切れなければならないという制約を課す。 0.76
We define Q, K and V as follows: Q, K, V を次のように定義する。 0.69
Q = AvgPoolp,1(x) ∈ RH,W,C K = MaxPoolp,1(x) ∈ RH,W,C V = AvgPool3,1(2D-Convs, 1(x)) ∈ RH,W,C Q = AvgPoolp,1(x) ∈ RH,W,C K = MaxPoolp,1(x) ∈ RH,W,C V = AvgPool3,1(2D-Convs, 1(x)) ∈ RH,W,C 0.45
(1) (2) (3) where the pooling operators subscripts are respectively the pool size and the stride and the convolution operator subscripts are respectively the kernel size and the stride. (1) (2) プール演算子サブスクリプトがプールサイズであり、ストライドと畳み込み演算子サブスクリプトがカーネルサイズとストライドである場合。
訳抜け防止モード: ( 1 ) ( 2 ) ( 3 ) where プール演算子のサブスクリプトは、それぞれプールサイズとストライドである そして、畳み込み演算子サブスクリプトはそれぞれカーネルサイズとstrideである。
0.69
Now we want to split the tensors Q, K and V into n horizontal slices and reshape the resulting tensors as follows: ∀h = 1, ...,n さて、テンソル Q, K, V を n 個の水平スライスに分割し、結果として得られるテンソルを次のように再形成したい。 0.62
qh = [SplitHeads(Q)]h ∈ RC,(HxW )/n kh = [SplitHeads(K)]h ∈ RC,(HxW )/n vh = [SplitHeads(V)]h ∈ RC,(HxW )/n qh = [SplitHeads(Q)]h ∈ RC,(HxW )/n kh = [SplitHeads(K)]h ∈ RC,(HxW )/n vh = [SplitHeads(V)]h ∈ RC,(HxW )/n 0.40
(4) (5) (6) (4) (5) (6) 0.42
Every head is deputed to process a triplet (qh,kh,vh) then we have n separate fully connected layers with linear output and weights/biases: w1,h ∈ R(HxW )/n,d, b1,h ∈ Rd. すべての頭部は三重項 (qh,kh,vh) を処理するように計算されるので、線型出力と重み/バイアスを持つ n 個の完全連結層を持つ: w1,h ∈ R(HxW )/n,d,b1,h ∈ Rd。 0.78
Queries and keys will share the same dense blocks result- クエリとキーは同じ密ブロックの結果を共有する。 0.68
ing in n embeddings as follows: n 埋め込みの ing は以下のとおりである。 0.52
˜qi, j h = ˜ki, j h = は、j h = はやき、jh= 0.55
(HxW )/n ∑ t=1 (HxW)/n ∑ t=1 である。 0.41
(HxW )/n ∑ t=1 (HxW)/n ∑ t=1 である。 0.41
h wt, j qi,t h wt, j qi,t 0.42
1,h + b j 1,h ∈ R 1,h + b j 1,h ∈ R 0.43
h wt, j ki,t h wt, j ki,t 0.43
1,h + b j 1,h ∈ R ∀h = 1, ...,n ∀i = 1, ...,C ∀ j = 1, ...,d 1,h + b j 1,h ∈ r s h = 1, ...,n s i = 1, ...,c s j = 1, ...,d
訳抜け防止モード: 1,h + b j 1,h ∈ R >h = 1, ..., n >i = 1 である。 ... , C , j = 1 , ... , d
0.58
(7) (8) Or, more shortly (from now on we will omit the head logic (7) (8) あるいは、もう少し早く(今後、私たちは、ヘッドロジックを省略します) 0.52
quantifier): quantifier (複数形 quantifiers) 0.47
˜qh = qh · w1,h + b1,h ∈ RC,d ˜kh = kh · w1,h + b1,h ∈ RC,d yqh = qh · w1,h + b1,h ∈ RC,d ,kh = kh · w1,h + b1,h ∈ RC,d 0.49
(9) (10) Now we can compute the attention scores through usual (9) (10) 普通に注意点を計算できるようになりました 0.49
transposition and matrix product: 転移とマトリックス生成物 0.65
Sh = ˜qh · ˜kT 略称は『sh = sqh · skt』。 0.39
h ∈ RC,C (11) h ∈ RC,C (11) 0.43
Dynamic scaling produces a channel-wise learned scaling (not dependent from heads) through averaging the scores and passing them through another fully connected layer with sigmoid activation and weights/biases w2 ∈ RC,C, b2 ∈ RC: 動的スケーリングは、スコアを平均化し、sgmoidアクティベーションとウェイト/ビアーゼをw2 ∈ rc,c,b2 ∈ rcで他の完全連結層に渡すことによって、チャネルごとに学習されたスケーリング(ヘッドに依存しない)を生成する。 0.64
˜Sh = Meandim=2(Sh) ∈ RC (cid:33) Sh = Meandim=2(Sh) ∈ RC (cid:33) 0.41
(cid:32) C T i h = Sig (cid:32)C T i h = Sig 0.42
∑ hwt,i ˜St ∑ Hwt,i ♪St 0.39
2 + bi 2 ∈ R ∀i = 1, ...,C 2+bi2 は 1 , ..., c である。 0.35
Ni, j h = t=1 Si, j h d(g+T i h) Ni, j h = t=1 si, jh d(g+t i h) 0.44
∈ R ∀i, j = 1, ...,C ∈ r , i, j = 1, ..., c である。 0.81
Wh = Softmaxdim=2(Nh) ∈ RC,C Wh = Softmaxdim=2(Nh) ∈ RC,C 0.50
(12) (13) (14) (12) (13) (14) 0.42
(15) where Th is the tensor of the scaling factors, Nh the tensor of the normalized attention scores and Wh the final attention weights associated with the head h. (15) Th はスケーリング因子のテンソル、Nh は正規化された注意点のテンソル、Wh は頭部h に関連する最後の注意重みである。 0.54
Now we can compute the final attention tensor for head h これでヘッドhの最終注意テンソルを計算できます 0.63
very straightforwardly: Ah = Wh · vh ∈ RC,(HxW )/n とても率直に言って Ah = Wh · vh ∈ RC,(HxW )/n 0.41
(16) and using simple transpose, reshape and concatenation operators we can compose the output y by assembling the n heads: (16) そして、単純な転置、再構成、連結演算子を使用して、出力 y を n 個のヘッドを組み立てることで構成できる。 0.50
y = SplitHeads−1([A1,A2, ...,An]) ∈ RH,W,C y = SplitHeads−1([A1,A2, ...,An]) ∈ RH,W,C 0.45
(17) (17) 0.43
英語(論文から抽出)日本語訳スコア
Local Multi-Head Channel Self-Attention for Facial Expression Recognition — 5/12 表情認識のための局所的マルチヘッドチャネルセルフアテンション - 5/12 0.76
Figure 2. The LHC module in its more general multi-head form. 図2。 LHCモジュールはより一般的なマルチヘッド形式である。 0.77
Image tensors of shape HxW xC are in pale blue, when reshaped/processed they are in dark blue. 形状HxW xCの画像テンソルは淡青色で、再成形・加工すると濃い青色になる。 0.67
The processing units are in violet. 処理ユニットは紫色です。 0.57
2.2 Motivation and Analysis Dynamic Scaling 2.2 動機と分析 動的スケーリング 0.74
In Vaswani’s Transformer the scaling is static and constant vaswaniのtransformerでは、スケーリングは静的で定数である 0.73
among the sequence. Equation (14) becomes: シークエンスの中で 方程式 (14) は 0.51
N = S√ d The idea behind our dynamic scaling is to exploit the following behavior of Softmax function. N = 略称d。 動的スケーリングの背景にある考え方は、Softmax関数の次の振る舞いを活用することである。 0.46
Given a non constant vector x ∈ Rn and a positive constant α > 0 it results: 非定数ベクトル x ∈ Rn と正の定数 α > 0 が与えられたとき、 0.72
Channel Self-Attention チャンネル・セルフ・アテンション 0.39
We already explained the main reasons behind our choice of channel-wise self-attention. 私たちはすでに、チャンネルワイドの自己注意を選んだ主な理由を説明しています。 0.56
We can summarize them as follows: まとめると以下のとおりである。 0.48
• spatial attention in computer vision strongly relies on the main assumption that a relationship between single pixels or areas of an image exists. • コンピュータビジョンにおける空間的注意は、単一のピクセルまたは画像の領域間の関係が存在するという主な仮定に強く依存する。 0.80
This assumption is not self-evident or at least not as evident as the relationship between words in a phrase spatial attention is inspired by この仮定は自己明快ではないし、少なくとも句空間的注意における単語間の関係がインスピレーションを受けるほど明らかでない。 0.67
• all attempts to pursue spatial self-attention in computer vision (especially in stand-alone mode) gained only minor improvements over previous state-of-the-art architectures and, most of the times, at the price of an unreasonably higher computational cost and a prohibitive pre-training on enormous datasets • コンピュータビジョン(特にスタンドアロンモード)における空間的自己注意を追求しようとする試みは、従来の最先端アーキテクチャに比べてわずかに改善され、多くの場合、不当に高い計算コストと巨大なデータセットに対する禁制的な事前トレーニングの価格で実現された。 0.69
• much more simple and computationally cheaper approaches, like Squeeze and Excitation in Efficient Net, are already proven to be very effective without the need to replace convolution SqueezeやExcitation in Efficient Netといった、よりシンプルで計算的に安価なアプローチは、畳み込みを置き換える必要なしに、すでに非常に効果的であることが証明されています。
訳抜け防止モード: •効率の良いネットのスクイーズや励磁など、ずっとシンプルで計算効率のよいアプローチ。 畳み込みを置き換えることなく 効果的であることが証明されています
0.73
(cid:40) lim α→+∞ (系統:40) lim α→+∞ 0.47
lim α→0+ eαxi n ∑ eαx j j=1 eαxi n ∑ eαx j lim α→0+ eαxi n , eαx j = eαxi n , eαx j 0.31
j=1 = = exi1 n ∑ ex j j=1 = = exi1 n > ex j 0.40
j=1 < exi2 n ∑ ex j j=1 < exi2 (複数形 exi2s) 0.39
j=1 if xi = max(x) j=1 xi = max(x) であれば 0.59
1, 0, otherwise 1, 0 でなければ 0.88
= j=1 1 n 1 n ∑ ⇔ eαxi1 eαx j = j=1 1n eαxi1 eαx j である。 0.42
1 n ∑ j=1 < 1 n ∑ j=1 < 0.40
eαxi2 n ∑ eαx j eαxi2 (複数形 eαxi2s) 0.35
j=1 (18) (19) j=1 (18) (19) 0.38
(20) These equations imply that we can multiply a logits vector x by a positive constant α without altering its softmax ranking (equation (20)) and if α is small the softmax resulting vector approximates an arithmetic average (equation (19)), if it is large it will be close to a one-hot vector valued 1 on the max of x and 0 otherwise (equation (18)). (20) これらの方程式は、ロジッツベクトル x をそのソフトマックスのランキングを変更することなく正の定数 α で乗じることができ(方程式(20))、もし α が小さいならば、ソフトマックスの結果得られるベクトルは算術平均を近似する(方程式(19))。
訳抜け防止モード: (20) これらの方程式は、ロジットベクトル x を正の定数 α で乗算することができ、そのソフトマックスランキング(方程式 (20 ) )を変更することなく得ることを意味する。 α が小さい場合、ソフトマックスのベクトルは算術平均(方程式 (19 ))を近似する。 大きいと、x の最大値 1 のホットベクトルに近くなる。 0であった。
0.60
In other words the 言い換えれば、 0.52
英語(論文から抽出)日本語訳スコア
Local Multi-Head Channel Self-Attention for Facial Expression Recognition — 6/12 表情認識のための局所的マルチヘッドチャネルセルフアテンション - 6/12 0.76
dynamic scaling module learns how complex the new feature maps must be. 動的スケーリングモジュールは、新しい機能マップの複雑さを学習する。 0.83
If the α associated to a given new feature map is large this feature map will be a strict selection of old feature maps, if it is small the new feature map will be a more complex composition of old feature maps involving a greater number of them. 与えられた新機能マップに関連するαが大きければ、フィーチャーマップは古いフィーチャーマップの厳密な選択となり、小さければ、新しいフィーチャーマップはもっと多くの機能マップを含む古いフィーチャーマップのより複雑な構成になるでしょう。
訳抜け防止モード: 与えられた新機能マップに関連するαが大きい場合、機能マップは、古い機能マップの厳格な選択となる。 もしそれが小さいなら、新しいフィーチャマップは、もっと多くの機能を含む古いフィーチャマップのより複雑な構成になるでしょう。
0.78
Shared Linear Embedding and Convolution 共有線形埋め込みと畳み込み 0.67
A shared linear layer was already explored by Woo et al with their CBAM vanilla attention architecture [13]. 共有線形層はすでにWooらによってCBAMバニラアテンションアーキテクチャ[13]で探索されている。 0.67
Our idea is exploiting the “self” nature of our attention mechanism. 私たちのアイデアは、注意メカニズムの“自己”の性質を活用することです。 0.68
Using Vaswani’s terminology self-attention means that the query, key and value originate from the same tensor. Vaswaniの用語の自己注意を使うことは、クエリ、キー、値が同じテンソルに由来することを意味する。
訳抜け防止モード: vaswaniの用語selfを使う -注意するということは クエリ、キー、値は同じテンソルに由来する。
0.66
We decided to leverage this aspect and save some complexity by first differentiating query and key respectively with average and max pooling in order to enhance different scale aspects of the input and then feeding them into a single shared linear embedding layer. この側面を活用して、クエリとキーをそれぞれ平均値と最大値のプーリングと区別することで、入力のスケールの異なる側面を強化し、それらを1つの共有線形埋め込み層に供給することで、複雑性を抑えることにしました。 0.62
Dense mapping is also helped by the big dimensionality reduction due to head splitting. デンスマッピングは、頭部分割による大きな次元減少にも役立っている。 0.68
On the other hand we used global convolution for the entire value tensor in order to preserve the bi-dimensional structure of the data. 一方,全値テンソルに対する大域的畳み込みを用いて,データの2次元構造を保存した。 0.61
Local Multi-Head ローカルマルチヘッド 0.78
In the original Transformer the multi-head structure is a concatenation of blocks all processing the same input. オリジナルのTransformerでは、マルチヘッド構造は全ての処理が同じ入力をブロックする結合である。 0.72
Voita et al [37] analyzed the Transformer and found a surprising redundancy in the representation offered by different heads: pruning 44 out of 48 heads from the Transformer’s encoder block results only in a residual performance drop. Voita et al [37]はTransformerを分析し、異なるヘッドによって提供される表現に驚くべき冗長性を発見した。
訳抜け防止モード: Voita et al [ 37 ] はトランスフォーマーを分析し、異なる頭によって提供される表現に驚くべき冗長性を見出した。 Transformerのエンコーダブロックから48個のヘッドのうち44個をプルーニングすると、パフォーマンスが低下する。
0.71
Only 4 heads (8%) were necessary to maintain a performance very close to the one of the entire architecture. アーキテクチャ全体の1つに非常に近いパフォーマンスを維持するのに、4つのヘッド(8%)しか必要なかった。 0.79
We tried to perform a similar evaluation for the LHC-Net by simply “switching off” LHC blocks and by “de-training” them (i.e., set the weights and biases of LHC blocks at the initialization status, before training). lhc-netについても,単にlhcブロックをスイッチオフし,それらをデトレーニング(トレーニング前に初期化状態においてlhcブロックの重みとバイアスを設定する)することで,同様の評価を行おうと試みた。
訳抜け防止モード: LHCブロックを単に“スイッチオフ”することで、LHC-Netの同様の評価を行おうとした。 そして “de - training” によって (すなわち LHCブロックの重みとバイアスを初期化状態に設定します。 訓練前)
0.79
In our case it was feasible to just switch off or de-train the new blocks without any further training because the entire ResNet backbone of the network was pre-trained and already able to deliver a very high performance. 私たちの場合、ネットワークのResNetバックボーン全体が事前トレーニングされ、すでに非常に高いパフォーマンスを提供できるため、追加のトレーニングなしに、新しいブロックをオフにしたり、あるいは非トレーニングしたりすることは可能でした。 0.62
With this approach we found that at least 16 heads out of 31 (52%) were necessary, more precisely the first 2 LHC blocks. このアプローチでは、31 (52%) のうち少なくとも16個のヘッドが必要であり、より正確には最初の2つのlhcブロックであった。 0.60
We further analyzed this behavior and in order to make another comparison we trained a standard Transformer encoder block as a simple classifier for a NLP classification problem reaching a very high accuracy, then we evaluated the model by simple correlation between the output of the heads and found a correlation between heads up to 93%. さらに,この挙動を解析し,また,nlp分類問題に対する簡易分類器として標準トランスコーダブロックを訓練した結果,頭部出力の簡易相関により,最大93%の相関が得られた。
訳抜け防止モード: さらに, この挙動を解析し, 別の比較を行うために, NLP分類問題に対する単純な分類器として標準トランスフォーマーエンコーダブロックを訓練した。 頭部の出力間の単純な相関によるモデルの評価を行い 頭と頭の間には93パーセントの相関関係がみられた。
0.82
As a comparison our architecture had a correlation between heads of 63%. 比較として,アーキテクチャには63%の相関関係があった。 0.82
There are many attempts to improve the attention mechanism of the Transformer. 変圧器の注意機構を改善する試みは数多く存在する。 0.69
Cordonnier et al tried to address the redundancy issue with a modified multi-head mechanism [38]. Cordonnierらはマルチヘッド機構を改良した[38]で冗長性の問題に対処しようとした。
訳抜け防止モード: Cordonnierらによる試み 修正されたマルチヘッド機構[38 ]で冗長性に対処する。
0.83
Sukhbaatar et al proposed a modified Transformer with an adaptive attention span [39]. Sukhbaatarらは適応的な注意幅[39]を持つ改良型トランスフォーマーを提案した。 0.68
More similarly to our local approach India et al proposed a multi-head attention mechanism for speaker recognition in which every head processes a different section of the input [40]. より類似したアプローチとして、インド等が話者認識のためのマルチヘッドアテンション機構を提案し、各ヘッドが入力[40]の異なるセクションを処理した。 0.72
There are two main differences with our approach (other than application field and implementation details): 私たちのアプローチには2つの大きな違いがあります(アプリケーション分野と実装の詳細以外)。 0.74
• Their approach is not designed for self-attention ・そのアプローチは自己注意のために設計されていない 0.51
• Their local processing units are used at a later stage. ※地方処理ユニットは後段で使用される。 0.56
They directly calculate local attention weights from embeddings (scalar output with softmax activation). 彼らは埋め込み(softmaxアクティベーションによるスカラー出力)から直接局所注意重みを計算する。 0.66
Our local processing units calculate the initial embeddings (high dimension output with linear activation) 局所処理ユニットは初期埋め込み(線形活性化による高次元出力)を算出する。 0.78
The ideas behind local heads are mainly three: 地頭の背後にある思想は主に3つある。 0.57
• Local heads have the advantage of working at a much lower dimension. • 局所ヘッドはより低次元で作業する利点がある。 0.65
Detecting a pattern of few pixels is harder if the input includes the entire feature map 入力が特徴地図全体を含む場合、数ピクセルのパターンの検出は困難である 0.77
• Splitting the images in smaller parts gives to local heads the ability to build new feature maps considering only the important parts of the old maps. • 画像を小さな部分に分割することで、古い地図の重要な部分だけを考慮した新しい特徴マップを構築することができる。 0.85
There’s no reason to compose feature maps in their entirety when only a small part is detecting an interesting feature. 興味深い機能を検出するのはごく一部だけだが、機能マップ全体を構成する理由はない。
訳抜け防止モード: 理由はない。 小さい部分だけが興味深い特徴を検出している場合、機能マップ全体を構成します。
0.78
Local heads are able to add a feature map to a new feature map only if the original map is activated by a pattern and only around that pattern, avoiding then to add not useful informations ローカルヘッドは、新しいフィーチャーマップにフィーチャーマップを追加することができるのは、元のマップがパターンによってアクティベートされ、そのパターンの周りにだけある場合に限られる。 0.76
• Local heads seem to be more efficient in terms of pa- •Paの点からすると、局所的な頭部は効率が良いようである。 0.48
rameters allocation rametersの割り当て 0.80
We experimentally found the performance positively correlated with the number of heads but we also tried to give a qualitative explanation of the third observation by designing a concrete example. 実験の結果,頭部数と正の相関関係を示したが,具体例の設計により,第3の観察を定性的に説明しようと試みた。 0.75
Let’s say we have n feature maps as output of the previous convolution block and that the optimal composition of those maps includes a combination of 2 of them, the ith and the jth, in the kth target feature map. 前の畳み込みブロックの出力としてn個のフィーチャーマップがあり、これらのマップの最適な構成は、k番目のターゲットフィーチャーマップのithとjthの2つの組み合わせを含んでいるとします。 0.79
In order to learn this pattern, using equations (9) and (10) (omitting the biases), a single global head must map: このパターンを学習するためには、方程式 (9) と (10) を用いて(バイアスを省略)、1つの大域ヘッドをマップしなければならない。
訳抜け防止モード: このパターンを学ぶために、方程式 (9 ) と (10 ) (偏りを省略する) を用いる。 一つのグローバルヘッドはマップしなければならない :
0.79
˜q = q· w1 ∈ RC,d ˜k = k· w1 ∈ RC,d シュク = q· w1 ∈ RC,d シュク = k· w1 ∈ RC,d 0.87
in such a way that ˜qk and ˜ki must be collinear in order to produce a high attention score in the kth target feature for the ith old feature map by dot product. qk と ski は、ドット積による ith の古い特徴写像の k 番目の対象特徴において高い注意点を生成するために、コリニアでなければならない。 0.57
The same for ˜qk and ˜k j. qk と j についても同様である。 0.74
To summarize we have 3 vectors that need to be mapped in other 3 vectors linked by 2 constraint rules. 要約すると、2つの制約ルールでリンクされた他の3つのベクトルにマップする必要がある3つのベクトルが存在する。
訳抜け防止モード: まとめる ベクトルは3つあります 2つの制約ルールでリンクされた他の3つのベクトルにマッピングする必要があります。
0.68
In total we have 3(HW + d) dimensions or 3(HW d) relationships subject to 2 constraints to be modeled. 総じて、3(HW + d)次元または3(HW d)関係がモデル化される2つの制約の対象となる。 0.83
To do that with the embedding linear layer we have a matrix w ∈ RHxW,d, equivalent to HW d 埋め込み線型層でそれを行うには、行列 w ∈ rhxw,d が存在し、hw d と同値である。
訳抜け防止モード: これを埋め込み線型層で行うために、行列 w ∈ RHxW を持つ。 d は HW d と同値である
0.77
英語(論文から抽出)日本語訳スコア
Local Multi-Head Channel Self-Attention for Facial Expression Recognition — 7/12 表情認識のための局所的マルチヘッドチャネルセルフアテンション - 7/12 0.75
free parameters. So we have: フリーパラメータ。 ですから、 0.55
G1 = G2 = HW d G1 = G2 = HW d 0.44
3(HW + d)2 3(HW + d)2 0.42
HW d 3(HW d)2 HW d 3(HW d)2 0.43
= 1 6 (21) = 1 6 (21) 0.43
(22) where G1 is the number of free parameters for dimension for every constraint and G2 is the number of free parameters for relationship for every constraint. (22) G1 はすべての制約に対する次元の自由パラメータの数であり、G2 はすべての制約に対する関係に対する自由パラメータの数である。 0.62
We see them as qualitative measures of the efficiency of the global single head. 我々はこれらを、グローバルな単一ヘッドの効率の質的な尺度と見なしている。 0.61
Now we want to calculate them in the case of n local heads. 現在、局所ヘッド n の場合、それらを計算したい。 0.62
The difference is that local heads works only on fractions of the entire input tensor, so we have to take into account where the ith and the jth filters are eventually activated. 違いは、局所ヘッドが入力テンソル全体の分数にのみ作用するため、i と j のフィルタが最終的に活性化される場所を考慮する必要があることである。 0.69
For a given section of the input tensor there are 3 cases: only one of them could be activated in that area, both of them or none of them. 入力テンソルの特定の部分には3つのケースがあり、その領域でアクティベートできるケースは1つしかない。
訳抜け防止モード: 入力テンソルの任意の部分に対して、3つのケースがある。 それらのうち1つだけが、その領域で活性化することができた。
0.67
We call A the number of sections with 1 possible activation, B the number of sections with 2 possible activations and C the number of sections with no possible activations. 我々は A を 1 個の活性化可能な区間数、 B は 2 個の活性化可能な区間数、 C はアクティベートできない区間数と呼ぶ。
訳抜け防止モード: A を 1 個の活性化可能なセクションの数を A と呼ぶ。 B アクティベーションが2つ可能なセクション数、C アクティベーションが不可能なセクション数。
0.74
It results: A + B +C = n その結果は: A + B + C = n 0.66
but this time w1,h ∈ R(HxW )/n,d, hence we have: しかし、今回は w1,h ∈ r(hxw )/n,d である。 0.69
A (cid:32) (cid:32) (cid:18) A A (cid:32) (cid:32) (cid:18) A 0.40
A 2 L1 = L2 = A 2 L1 = L2 = 0.43
= + B HW n d 3( HW n + d)2 HW n d 3( HW n d)2 = +B HW n d 3(HW n + d)2 HW n d 3(HW n d)2 0.42
(cid:33) HW n d 2( HW n + d) HW n d 2( HW n d) B 6 (cid:33) HW n d 2(HW n + d) HW n d 2(HW n d) B 6 0.40
(cid:19) + (cid:19) + 0.41
+ B /(A + B) +B /(A + B) 0.42
/(A + B) (cid:33) /(A + B) (cid:33) 0.41
/(A + B) (23) /(A+B)(23) 0.39
We have immediately: L2 > G2 ⇔ 私たちはすぐに L2>G2。 0.76
(cid:19) (cid:18) A (cid:19) (出典:18)A 0.56
2 + B 6 /(A + B) > 2 + B-6 /(a + b) > 0.41
⇔ A > 0 a > 0 である。 0.63
1 6 Or more shortly: 1 6 もしくはもっと近いうちに 0.55
L2 ≥ G2 L2 = G2 ⇔ A = 0 L2 ≥ G2 L2 = G2 > A = 0 0.43
(24) (25) (26) (24) (25) (26) 0.43
if the ith and the jth filters are possibly activated in every section of the input tensor local multi-head is equivalent to global single head in terms of efficiency and effectiveness, but a single section of the input tensor with only one possible activation is enough to make local multi-head more effective. ithフィルタとjthフィルタが、入力テンソルローカルマルチヘッドの各セクションで活性化される場合、効率性と有効性の観点からは、グローバルシングルヘッドと同値であるが、入力テンソルの1つのセクションのみを有効化すれば、ローカルマルチヘッドをより効果的にすることができる。 0.75
If we decide to consider the dimensions (L1 and G1 measures instead of L2 and G2) the calculation is more complicated; to make it easier let’s make some basic assumptions. 次元(L2 と G2) の代わりに L1 と G1 の測度)を考えると、計算はより複雑になる。
訳抜け防止モード: 次元を考えると(L2 と G2 の代わりに L1 と G1 を測る) 計算はもっと複雑です 簡単にするために、いくつかの基本的な仮定をしましょう。
0.77
Let’s consider the hyper-parameters settings of the actual first two blocks of our LHC-Net, where d = HW 2n and n = 8. d = hw 2n と n = 8 である lhc-net の最初の2ブロックのハイパーパラメータの設定を考えてみましょう。
訳抜け防止モード: LHC - Netの最初の2ブロックのハイパーパラメータ設定について考えてみましょう。 d = HW 2n で n = 8 である。
0.81
We have: L1 > G1 ⇔ HW n d 2( HW n +d) あります。 l1 > g1 は hw n d 2(hw n + d) である。 0.50
A + B HW n d 2( HW n +d)3 A +B HW n d 2(HW n + d)3 0.43
(A + B) 1 n (A + B)1 n 0.42
+ B (cid:19) +B (cid:19) 0.40
> 1 n (cid:33) > 1n (cid:33) 0.40
6 HW n (1 + 1 2 ) 6時間 n (1 + 1 2 ) 0.50
2 HW n (1 + 1 2 ) 1 2時間 n (1 + 1 2 ) 1 0.47
+ B 2(1 + 1 2 ) +B 2(1 + 1 2 ) 0.42
(cid:19) + (cid:19) + 0.41
B 9 > 1 6(1 + 1 2 ) 16A + 16B ⇔ B 9 > 1 6(1 + 1 2 ) 16a + 16b である。 0.53
102 > A + B 6(1 + 1 102 > a + b 6(1 + 1) 0.43
16 ) ⇔ (cid:18) (cid:32) (cid:32) (cid:18) A 16 ) ⇔ (cid:18) (cid:32) (cid:32) (cid:18) A 0.41
A A 3 3(HW + d)2 A A 3 3(HW + d)2 0.42
HW d (cid:33) HW d (cid:33) 0.41
⇔ > A + B 6HW (1 + 1 ⇔ > A + B 6hw (1 + 1) である。 0.42
2n ) ⇔ (3A + B) > 2n)。 ⇔ (3a+b)> 0.48
144A + 144B 102 144A+144B 102 0.40
⇔ A > 0.26B a > 0.26b である。 0.48
In this case the combinations A = 0, B = 8 and A = 1, B = 7 give an advantage to global single head. この場合、A = 0, B = 8 と A = 1, B = 7 の組み合わせは、大域的な単頭に対して有利である。 0.81
Every other possible combination do the opposite as shown in this figure: 他のあらゆる組み合わせは、この図で示されるような反対の働きをします。 0.56
It appears clear that local heads have an advantage over global heads in any real-world application. ローカルヘッドが現実世界のアプリケーションでグローバルヘッドに対して優位であることは明らかだ。 0.79
For example in FER2013 it is unlikely that a feature extracted from a face could appear anywhere in the picture. 例えばFER2013では、顔から抽出された特徴が写真のどこかに現れる可能性は低い。 0.78
For example eyebrows will be almost always in the upper section of the picture. 例えば、まばたきは画像の上部でほぼ常に見られる。 0.52
This, of course, has not the ambition to be a rigorous proof of the goodness of local heads over global head, it is only a qualitative analysis giving an encouraging view. これはもちろん、グローバルヘッドに対するローカルヘッドの善良さの厳密な証明になるという野心ではなく、励まされる見解を与える定性的な分析に過ぎない。 0.68
3. Experiments As mentioned we mainly focused on using LHC in conjunction with a pre-trained backbone, the ResNet34v2. 3.実験 前述のように、私たちは主に、トレーニング済みのバックボーンであるResNet34v2と一緒にLHCの使用にフォーカスしました。
訳抜け防止モード: 3.実験 さっきも言ったように 主に lhcとプリトレーニングされたバックボーン、resnet34v2を併用する。
0.68
The training process consisted in training a ResNet34v2 (with Imagenet pre-training initialization) on FER2013, then adding 5 LHC modules as shown in Fig 1 and further training the entire architecture. トレーニングプロセスは、FER2013上でResNet34v2(Imagenetによる事前トレーニング初期化)をトレーニングし、図1に示すように5つのLHCモジュールを追加し、アーキテクチャ全体をトレーニングする。 0.66
The Idea was designing modules with a small そのアイデアは小さなモジュールをデザインすることでした 0.78
英語(論文から抽出)日本語訳スコア
Local Multi-Head Channel Self-Attention for Facial Expression Recognition — 8/12 表情認識のための局所的マルチヘッドチャネルセルフアテンション - 8/12 0.77
impact on the “host” network similarly at the approach of the Squeeze and Excitation modules [11]. SqueezeとExcitationモジュールのアプローチも同じように“ホスト”ネットワークに影響します [11]。 0.72
In other words our main goal was to test the ability of LHC to give an extra performance boost to an existing good performing model. 言い換えれば、私たちの主な目標は、既存の優れたパフォーマンスモデルにさらなるパフォーマンス向上を与えるLHCの能力をテストすることです。 0.79
Secondarily we also tested LHC-Net as a stand-alone model trained (only Imagenet pre-training of the ResNet part) from scratch and we obtained limited but very good results. 第2に、LHC-Netをトレーニングされたスタンドアロンモデル(ResNet部分のImagenet事前トレーニングのみ)としてスクラッチからテストし、限られたが非常に良い結果を得た。 0.58
In this section we will discuss the details of our training protocol and the experimental results. 本稿では,トレーニングプロトコルの詳細と実験結果について述べる。 0.68
Setup We rescaled the FER2013 images to 224x224 and converted them to RGB in order to match the resolution of Imagenet and make them compatible with the pre-trained ResNet. 設定 我々はFER2013画像を224x224に再スケールし、Imagenetの解像度に合わせるためにRGBに変換し、事前訓練されたResNetと互換性を持たせた。 0.70
For rescaling we used bilinear interpolation. 再スケーリングにはバイリニア補間を使いました。 0.38
Then, in order to save RAM memory, we stored the entire training set as jpeg images accepting some neglectable quality loss and used TensorFlow Image Data Generator to feed the model during training. 次に、RAMメモリを保存するために、無視可能な品質損失を受け入れるjpegイメージとしてトレーニングセット全体を保存し、トレーニング中にTensorFlow Image Data Generatorを使用してモデルをフィードしました。 0.69
Saving images in jpeg format implies two different quality losses: the jpeg compression itself and the need to approximate the tensor images to be uint8 (bilinear interpolation in rescaling generate non integer values). jpegフォーマットでのイメージの保存は、jpeg圧縮自体と、uint8に近似するテンソルイメージ(再スケーリングにおける双線形補間は非整数値を生成する)の2つの異なる品質損失を意味する。 0.77
To do that the tensors could be rounded or truncated. そのため、テンソルは丸くしたり縮めたりすることができる。 0.48
Considering that truncation is only a rounding with the input shifted of 0.5 and that this shifting makes the training set in FER2013 better matching the validation and test set average pixel value we proceeded with raw truncation. トランケーションは0.5の入力シフトで丸められただけであり、このシフトは、我々が生トランケーションで行った検証値とテストセットの平均ピクセル値に適合するFER2013のトレーニングセットをより良くする。 0.67
The implementation details of ResNet are reported in Fig 1 and the model parameters of the 5 LHC blocks are the following: ResNetの実装の詳細はFig 1で報告され、5つのLHCブロックのモデルパラメータは以下の通りである。 0.74
Block Heads Dim Pool LHC1 LHC2 LHC3 LHC4 LHC5 ブロックヘッドダイムプールLHC1 LHC3 LHC4 LHC5 0.84
196 196 56 14 25 196 196 56 14 25 0.42
8 8 7 7 1 3 3 3 3 3 8 8 7 7 1 3 3 3 3 3 0.42
Scale Ker 3 3 3 3 3 スケールker 3 3 3 3 3 3 0.81
1 1 1 1 1 We trained the model in a sequential mode with 3 training stages, using standard crossentropy loss, varying the data augmentation protocol, the batch size and the optimzer at every stage. 1 1 1 1 1 我々は,データ拡張プロトコル,バッチサイズ,オプティマイザを各ステージで変更し,標準的なクロスエントロピー損失を用いて,3段階の連続モードでモデルを訓練した。 0.61
Early stopping is performed on validation set. 早期停止は検証セットで実行される。 0.75
Stage1: Stage2: ステージ1 ステージ2 0.68
Optimizer Batch Size Patience オプティマイザバッチサイズ忍耐性 0.44
Augmentation Adam, lr = 0.0001 増補 アダム lr = 0.0001 0.68
48 30 epochs 30 deg. 48 30分30分。 0.48
rot. Optimizer Batch Size Patience 腐ってる オプティマイザバッチサイズ忍耐性 0.42
Augmentation SGD, lr = 0.01 増補 SGD, lr = 0.01 0.51
64 10 epochs 10 deg. 64 10歳から10歳まで。 0.47
rot. 0.1 h/v shift 0.1 zoom 腐ってる 0.1 h/vシフト 0.1 ズーム 0.48
Stage3: Optimizer Batch Size Patience ステージ3 オプティマイザバッチサイズ忍耐性 0.56
Augmentation SGD, lr = 0.01 増補 SGD, lr = 0.01 0.51
64 5 epochs - At this point we have our ResNet ready to be augmented and further trained. 64 5期 - 現時点では、ResNetの拡張とトレーニングの準備ができています。 0.49
We used a very simple training protocol. 非常に単純なトレーニングプロトコルを使用しました。 0.61
Stage 4 (LHC training): ステージ4(LHC訓練): 0.81
Optimizer Batch Size Patience オプティマイザバッチサイズ忍耐性 0.44
Augmentation SGD, lr = 0.01 増補 SGD, lr = 0.01 0.51
64 3 epochs - We observed in some cases, depending on the LHC initialization, that the added modules are somehow “rejected” by the host network and the training struggles to converge, in one case it totally diverged. 64 3期 - LHCの初期化に依存するいくつかのケースでは、追加モジュールはホストネットワークによって何らかの“拒絶”され、トレーニングが収束するのに苦労している。 0.49
It happened in a minority of the total attempts but to perform the following evaluations we kept only the models whose training loss was less than the starting ResNet training loss plus an extra 10% to take into account the augmented complexity of the model. 全体の試みのごく一部で発生しましたが、以下の評価を行うには、トレーニング損失が開始時のresnetトレーニング損失よりも少ないモデルと、モデルの複雑さの増加を考慮に入れるための追加の10%しか保持していません。 0.73
To evaluate LHC we first applied stage 4 to the single best ResNet34 model we managed to achieve (with stages 1, 2 and 3), varying the data generator seed, without LHC modules (set A). LHCを評価するために、私たちは最初に、LHCモジュール(セットA)なしで(ステージ1、2、3で)達成できた最高のResNet34モデルにステージ4を適用しました。 0.58
Then, starting from the same base network we augmented it with LCH modules and trained it using the same protocol. そして、同じベースネットワークから、それをlchモジュールで拡張し、同じプロトコルを使ってトレーニングしました。 0.69
We tried a small number of trainings with a variety of model parameters (keeping the data generator seed fixed) and clearly detected a neighbourhood of settings appearing to work well (set B). さまざまなモデルパラメータ(データジェネレータのシードを固定したまま)で少数のトレーニングを行ない、うまく動作しているように見える設定の近傍をはっきりと検出した(セットB)。 0.75
At this point we trained several other models with the best promising parameters setting varying the generator seed (set C). この時点では、ジェネレータシード(セットC)を可変に設定する最も有望なパラメータで、いくつかのモデルをトレーニングしました。 0.51
We then compared the set A with the set B∪C. 次に、集合 A と集合 B とを比較した。 0.65
We also considered a minor variation of LHC-Net. LHC-Netの小さなバリエーションも検討した。 0.65
We tried to exploit the analysis on the 5 modules we discussed in the previous section showing the last modules playing a minor role and trained 5 weights, limited by hyperbolic tangent, for every residual sum shown in Fig 1. 我々は,前節で論じた5つのモジュールの分析を生かして,最後のモジュールが小さな役割を担っていることを示すとともに,双曲的接点によって制限された5つの重みを,図1に示すすべての残差和に対して訓練した。 0.69
We manually initialized this 5 weights by setting them as follows: a1 = tansig(0), a2 = tansig(0), a3 = tansig(0), a4 = tansig(−1), a5 = tansig(−0.5) with the idea of limiting the impact of the last 2 modules. a1 = tansig(0), a2 = tansig(0), a3 = tansig(0), a4 = tansig(−1), a5 = tansig(−0.5) である。
訳抜け防止モード: a1 = tansig(0 ) と設定することで、この5つの重みを手動で初期化しました。 a2 = tansig(0 ), a3 = tansig(0 ), a4 = tansig(−1 ), a5 = tansig(−0.5 ) 最後の2つの加群の影響を制限するというアイデアを持つ。
0.76
We call it LHC-NetC. LHC-NetCと呼ぶ。 0.85
Accordingly with the original Kaggle rules and with almost all evaluation protocols in literature only the private test set was used for final evaluations (public test set performance also appeared to be not well correlated with neither training nor private test performances). そのため、オリジナルのKaggleルールと、文学におけるほぼすべての評価プロトコルは、最終評価にプライベートテストセットのみを使用していた(パブリックテストセットのパフォーマンスは、トレーニングやプライベートテストのパフォーマンスともあまり関係がないようである)。 0.72
For comparison with ResNet we didn’t use test time augmentation (TTA). ResNetと比較して、テスト時間拡張(TTA)は使用していません。 0.76
We used TTA only for final evaluation and comparison with other models in literature. 文献では,TTAを最終評価と他のモデルとの比較に用いた。 0.70
Our TTA protocol is totally deterministic; we first used a sequence of transformations involving horizontal flipping, ±10 pixels horizontal/vertical shifts and finally ±0.4 radians rotations, in this order. 我々のTTAプロトコルは完全に決定論的であり、まず水平反転、±10ピクセル水平/垂直シフト、最後に±0.4ラジアン回転を含む一連の変換をこの順序で使用した。 0.67
We use rotation after shifting to combine their シフト後の回転を使ってそれらを組み合わせる 0.66
英語(論文から抽出)日本語訳スコア
Local Multi-Head Channel Self-Attention for Facial Expression Recognition — 9/12 表情認識のための局所的マルチヘッドチャネルセルフアテンション - 9/12 0.77
effect. Rotating first puts the images in only 9 spots, which becomes 25 if we shift first. 効果だ まず回転すると、画像はわずか9箇所に留まり、最初にシフトすると25箇所になる。 0.70
At this point we used a second batch of transformations involving horizontal flipping, 10% zoom and again ±0.4 radians rotations. この時点で水平反転、10%ズーム、再び±0.4ラジアン回転を含む第2の変換を用いた。 0.73
Finally we weighted the no-transformation inference 3 times the weight of others inferences. 最後に、非変換推論を他の推論の3倍の重み付けを行った。 0.58
Results Model Top 40% 結果 モデル 上位40% 0.74
Top 40% w/o best トップ40%のw/oベスト 0.69
Top 25% Top 25% w/o best 上位25% 25%w/oベスト 0.76
Best ResNet34v2 72.69% 72.65% 72.75% 72.69% 72.81% 72.89% 72.77% 73.02% 72.83% 73.39% LHC-Net LHC-NetC 73.04% 72.79% 73.21% 72.89% 73.53% LHC-Net was able to consistently outperform our best performing ResNet34v2, both on average and on peak result. 最高 resnet34v2 72.69% 72.65% 72.75% 72.69% 72.81% 72.89% 72.89% 72.77% 73.02% 72.83% 72.83% 73.39% lhc-netc 73.04% 72.21% 72.89% 72.89% 73.53% lhc-netは、我々の最高のパフォーマンスであるresnet34v2を平均とピークの両方で一貫して上回っている。 0.60
Note that the average is not dramatically affected by peak result. 平均値がピーク値の影響を受けないことに注意。 0.73
Removing peak results does not alter the average qualitative evaluation. ピーク値の除去は平均定性評価を変えない。 0.71
- - Att- 5.18% - - Att- 5.18% 0.40
Model BoW Repr.[2] Model BoW Repr.[2] 0.37
Human [2] CNN[31] VGG19[35] EffNet[35]∗ SVM[2] Inception[32] Incep.v1[35]∗ ResNet34[32] ResNet34[35] VGG[32] SE-Net50[33] Incep.v3[35]∗ ResNet34v2 BAMRN50[35]∗ Dense121[35] ResNet50[33] ResNet152[35] VGG[34] CBAMRN50[35] LHC-Net LHC-NetC ResNet34v2 RM-Net [35] LHC-NetC LHC-Net Human [2] CNN[31] VGG19[35] EffNet[35]∗ SVM[2] Inception[32] Incep.v1[35]∗ ResNet34[35] VGG[32] SE-Net50[33] Incep.v3[35]∗ ResNet34v2 BAMRN50[35]∗ Dense121[35] ResNet50[33] ResNet152[35] VGG[34] CBAMRN50[35] LHC-Net LHC-NetC ResNet34v2 RM-NetNet 0.49
23.85M 143.7M 9.18M 23.85M 143.7M9.18M 0.21
5M 27.6M 27.6M 143.7M 5M 27.6M 27.6M 143.7M 0.20
Accuracy TTA Params 67.48% 70% 70.02% 70.80% 70.80% 71.16% 71.60% 71.97% 72.40% 72.42% 72.70% 72.70% 72.72% 72.81% 73.14% 73.16% 73.20% 73.22% 73.28% 73.39% 73.39% 73.53% 73.92% 74.14% 74.28% 74.42% Accuracy TTA Params 67.48% 70% 70.02% 70.80% 70.80% 71.16% 71.60% 71.97% 72.40% 72.42% 72.70% 72.70% 72.72% 72.81% 73.14% 73.16% 73.20% 73.22% 73.28% 73.39% 73.39% 73.53% 73.92% 74.14% 74.28% 74.42% 0.31
no no no yes yes no yes yes yes yes yes yes yes no yes yes yes yes yes yes no no yes yes yes yes はいはい はいはい はいはい はいはい はいはいはい はいはいはいはいはいはいはいはいはいはい 0.47
27M - 23.85M 27.6M 24.07M 1.62% 8.06M 25.6M 60.38M 143.7M 28.09M 32.4M 14.8% 32.4M 14.8% 27.6M 142.9M 80.7% 32.4M 14.8% 32.4M 14.8% ∗ these models are reported in the GitHub repository associated with the referenced paper, not directly into the paper. 27M - 23.85m 27.6m 24.07m 1.62% 8.06m 25.6m 60.38m 143.7m 28.09m 32.4m 14.8% 32.4m 14.8% 27.6m 142.9m 80.7% 32.4m 14.8% 32.4m 14.8% ∗ これらのモデルは、参考論文に関連付けられたgithubリポジトリで報告されている。 0.42
9% - There are some key points emerging from this analysis: 9% - この分析からいくつかの重要なポイントが生まれる。 0.51
• ResNet34 is confirmed to be the most effective architecture on FER2013, especially its v2 version. • resnet34はfer2013、特にv2バージョンで最も効果的なアーキテクチャであることが確認された。
訳抜け防止モード: • ResNet34 が確認される FER2013、特にv2バージョンで最も効果的なアーキテクチャです。
0.79
In our experiments raw ResNet34 trained with the multi-stage protocol and inferenced with TTA reaches an accuracy not distant from the previous SOTA (ResMaskingNet) 実験では,マルチステージプロトコルでトレーニングし,TTAで推論した生のResNet34が,以前のSOTA(ResMaskingNet)から遠くない精度に到達した。 0.63
• heavy architectures seem not able to outperform more • 重いアーキテクチャはそれ以上の性能を発揮できないように思える 0.61
simple models on FER2013 fer2013 の単純モデル 0.77
• LHC-Net has the top accuracy both with and without • LHC-Net の精度が最大である。 0.76
TTA • LHC-NetC outperforms LHC-Net but is outperformed TTA • LHC-NetC は LHC-Net より優れているが、性能が優れている 0.43
when TTA is used TTAを使用する場合 0.84
• more importantly, LHC-Net outperforms the previous SOTA with less than one fourth of its free parameters and the impact of the LHC modules on the base architecture is much lower (less than 15% VS over 80%) and it is close to other attention modules like CBAM/BAM/SE より重要なのは、LHC-Netが以前のSOTAを4分の1以下で上回り、LHCモジュールがベースアーキテクチャに与える影響はずっと低く(VSが80%以上)、CBAM/BAM/SEのような他の注目モジュールに近いことである。
訳抜け防止モード: •より重要なのは、LHC - Net が以前の SOTA を4分の1以下で上回っていることだ。 LHCモジュールがベースアーキテクチャに与える影響は,はるかに低い (VSが80%以上)。 CBAM / BAM / SE のような他の注目モジュールに近いものです
0.80
As mentioned we limitedly experimented stand-alone training as well with very good results. 前述のように、スタンドアローンのトレーニングだけでなく、非常によい結果も実験しました。 0.50
We trained in parallel, using the same data generator seeds and the same multi-stage protocol, both LHC-Net and ResNet34v2. LHC-NetとResNet34v2の両方で、同じデータジェネレータシードと同じマルチステージプロトコルを使って、並列にトレーニングしました。 0.58
In both models the ResNet34v2 was initialized with Imagenet pre-trained weights. どちらのモデルも、ResNet34v2はImagenetで事前訓練された重量で初期化された。 0.46
It resulted that LHC-Net consistently outperformed ResNet34v2 at the end of every training stage. その結果、LHC-Netはトレーニングステージ毎にResNet34v2を上回った。 0.66
It is a limited but very encouraging result. 限定的ではあるが非常に有能な結果である。 0.58
4. Conclusions and Future Developments Attention, in its every form and shape, is a powerful idea and, despite its impact on computer vision might be not as revolutionary as on NLP, it is still proven to be an important, sometimes decisive, tool. 4. 結論と今後の発展 あらゆる形態と形態において、意識は強力なアイデアであり、コンピュータビジョンへの影響はNLPほど革命的ではないが、重要な、時には決定的なツールであることが証明されている。 0.74
In particular we designed a novel local multi-head channel self-attention module, the LHC, and it contributed proving that channel self-attention, in synergy with convolution, could be a functioning paradigm by setting a new state-of-the-art on the well known FER2013 dataset. 特に我々は,新しい局所的マルチヘッドチャネルセルフアテンションモジュール lhc を設計し,よく知られたfer2013データセットに新たな最先端を設定することで,畳み込みと相乗的にチャネル自己アテンションが機能的パラダイムとなることを証明した。 0.72
We also proved that self-attention works well as a small attention module intended as a booster for pre-existing architectures, like other famous vanilla attention modules as CBAM or Squeeze and Excitation. また,cbamやswish and excitationといった有名なバニラアテンションモジュールのように,既存のアーキテクチャのブースタとして意図された小さなアテンションモジュールとして,セルフアテンションが機能することを示した。 0.52
The future research on this architectures will include many このアーキテクチャに関する今後の研究には 0.60
aspects: • testing LHC on other, more computational intensive, 側面: • lhc を他の計算集約型でテストする。 0.51
scenarios like the Imagenet dataset Imagenetデータセットのようなシナリオ 0.78
• testing LHC with other backbone architectures and with a larger range of starting performances (not only peak performances) • LHCを他のバックボーンアーキテクチャでテストし、より広範囲の開始性能(ピーク性能だけでなく)でテストする。 0.73
英語(論文から抽出)日本語訳スコア
Local Multi-Head Channel Self-Attention for Facial Expression Recognition — 10/12 表情認識のための局所的マルチヘッドチャネルセルフアテンション - 10/12 0.76
• we did not optimize the general topology of LHC-Net and the model hyper-parameters of the attention blocks are hand-selected with only a few attempts. • LHC-Netの一般的なトポロジを最適化せず, 注目ブロックのモデルハイパーパラメータを手作業で選択した。 0.75
There’s evidence that both the 5 blocks topology and hyperparameters might be sub-optimal 5ブロックのトポロジーとハイパーパラメータの両方が最適ではないという証拠がある 0.67
• further research on the stand-alone training mode will ・スタンドアローン・トレーニング・モードに関するさらなる研究 0.70
be necessary • normalization blocks before and after the the LHC blocks should be better evaluated in order to mitigate the divergence issue mentioned in the previous section 必要なら • lhcブロックの前後の正規化ブロックは、前節の発散問題を緩和するために、より良く評価されるべきである。 0.72
• a second convolution before the residual connection should be considered to mimic the general structure of the original Transformer •残余接続前の第二の畳み込みは、原変圧器の一般的な構造を模倣するものとみなすべきである 0.71
• a better head splitting technique could be key in the future research. •より優れた頭部分割技術が将来の研究の鍵となるかもしれない。 0.72
The horizontal splitting we used was only the most obvious way to do it but not necessarily the most effective. 私たちが使った水平分割は、最も明白な方法に過ぎず、必ずしも最も効果的ではない。 0.71
Other approaches should be evaluated. 他のアプローチを評価すべきです。 0.60
For example learning the optimal areas through spatial attention 例えば、空間的注意による最適領域の学習 0.88
The main results of this paper are replicable by cloning the repository and following the instructions available at: https://github.com/B odhis4ttva/LHC Net 本論文の主な成果は,リポジトリのクローン化と https://github.com/B odhis4ttva/LHC Net で利用可能な命令に従うことで,複製可能である。
訳抜け防止モード: 本論文の主な成果はリポジトリのクローン化による複製可能である。 https://github.com/B odhis4ttva/LHC Net
0.70
5. Acknowledgment We would like to express our deepest appreciation to Dr. Carmen Frasca for her crucial support to our research. 5.認定 我々はカーメン・フラスカ博士に、我々の研究への重要な支援について、最も深い感謝を表明したい。 0.64
We would also like to extend our sincere thanks to Dr. Luan Pham and Valerio Coderoni for their helpfulness and kindness. また、Luan Pham博士とValerio Coderoniに感謝して、誠実さを拡大したいと考えています。 0.61
英語(論文から抽出)日本語訳スコア
Local Multi-Head Channel Self-Attention for Facial Expression Recognition — 11/12 表情認識のための局所的マルチヘッドチャネルセルフアテンション - 11/12 0.76
References [1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 参考文献 [1]アシシュ・ヴァスワニ、ノーム・シェーザー、ニキ・パルマー、ヤコブ・ウスコレイト、リヨン・ジョーンズ、エイダン・ゴメス、ウカシュ・カイザー、イリア・ポロソキン。 0.54
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In Advances in neural information processing systems, pages 5998–6008, 2017. ニューラル・インフォメーション・プロセッシング・システムの進歩により、2017年5998-6008頁。 0.65
[2] Ian J Goodfellow, Dumitru Erhan, Pierre Luc Carrier, Aaron Courville, Mehdi Mirza, Ben Hamner, Will Cukierski, Yichuan Tang, David Thaler, Dong-Hyun Lee, et al Challenges in representation learning: A report on three machine learning contests. [2] Ian J Goodfellow, Dumitru Erhan, Pierre Luc Carrier, Aaron Courville, Mehdi Mirza, Ben Hamner, Will Cukierski, Yichuan Tang, David Thaler, Dong-Hyun Lee, et al Challenges in representation learning: A report on three machine learning contests。
訳抜け防止モード: 2 ] イアン・j・グッドフェルロー デュミトル・エルハン ピエール・リュック・キャリア アーロン・クールヴィル メフディ・ミルザ ベン・ハムナー ウィル・クキアスキー yichuan tang, david thaler, dong-hyun lee, et al challenges in representation learning: a report on three machine learning contests (英語)
0.56
In International conference on neural information processing, pages 117–124. 神経情報処理に関する国際会議では、117-124ページ。 0.75
Springer, 2013. [3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2013年春。 [3]開明、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.49
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. Proceedings of the IEEE conference on computer vision and pattern recognition, page 770–778, 2016
訳抜け防止モード: In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 770-778頁、2016年。
0.83
[4] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 4]dzmitry bahdanau、kyunghyun cho、yoshua bengio。 0.51
Neural machine translation by jointly learning to align and translate. 整列と翻訳を共同で学習することで、ニューラルマシン翻訳を行う。 0.60
arXiv preprint arXiv:1409.0473, 2014. arxiv プレプリント arxiv:1409.0473, 2014 0.42
[5] Minh-Thang Luong, Hieu Pham, and Christopher D Manning. 5]Minh-Thang Luong、Hieu Pham、Christopher D Manning。 0.67
Effective approaches to attention-based neural machine translation. 注意に基づくニューラルマシン翻訳への効果的なアプローチ 0.65
arXiv preprint arXiv:1508.04025, 2015. arXiv preprint arXiv:1508.04025, 2015 0.40
[6] David E Rumelhart, Geoffrey E Hinton, and Ronald J Williams. David E Rumelhart氏、Geoffrey E Hinton氏、Ronald J Williams氏。 0.33
Learning representations by back-propagating errors. バックプロパゲートエラーによる表現の学習。 0.65
nature, 323(6088):533–536, 1986. 自然誌 323(6088):533-536, 1986 0.77
[7] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. 7]Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich。
訳抜け防止モード: [7]キリシタン・セゲディ,ワイ・リウ,ヤンキング・ジア, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan ヴィンセント・ヴァンホッケ(Vincent Vanhoucke)とアンドリュー・ラビノヴィッチ(Andrew Rabinovich)。
0.61
Going deeper with convolutions. 畳み込みでさらに深く進む。 0.61
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1–9, 2015. Proceedings of the IEEE conference on computer vision and pattern recognition, page 1–9, 2015
訳抜け防止モード: In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 1-9頁、2015年。
0.77
[8] Karen Simonyan and Andrew Zisserman. 8]カレン・シモンヤンとアンドリュー・ジッセルマン 0.62
Very deep convolutional networks for large-scale image recognition. 大規模画像認識のための深層畳み込みネットワーク 0.78
arXiv preprint arXiv:1409.1556, 2014. arxiv プレプリント arxiv:1409.1556, 2014 0.45
[9] Linchuan Xu, Jun Huang, Atsushi Nitanda, Ryo Asaoka, and Kenji Yamanishi. [9]林中庵、雲淳、新田篤、浅岡良、山西健二 0.21
A novel global spatial attention mechanism in convolutional neural network for medical image classification. 医用画像分類のための畳み込みニューラルネットワークにおける新しいグローバル空間注意機構 0.79
arXiv preprint arXiv:2007.15897, 2020. arxiv プレプリント arxiv:2007.15897, 2020 0.44
[10] Max Jaderberg, Karen Simonyan, Andrew Zisserman, et al Spatial transformer networks. 10] Max Jaderberg, Karen Simonyan, Andrew Zisserman, et al Space Transformer Network。 0.37
Advances in neural information processing systems, 28:2017–2025, 2015. ニューラル情報処理システムの進歩 (28:2017–2025, 2015) 0.69
[11] Jie Hu, Li Shen, and Gang Sun. 11]ジ・フ、リー・シェン、ギャング・サン 0.39
Squeeze-and-excitati on In Proceedings of the IEEE conference on networks. Squeeze-and-Excitati on In Proceedings of the IEEE conference on network (英語) 0.31
computer vision and pattern recognition, pages 7132– 7141, 2018. コンピュータビジョンとパターン認識』7132-7141頁、2018年。 0.77
[12] Mingxing Tan and Quoc Le. [12]Mingxing TanとQuoc Le。 0.68
Efficientnet: Rethinking model scaling for convolutional neural networks. Efficientnet: 畳み込みニューラルネットワークのモデルスケーリングを再考する。 0.81
In International Conference on Machine Learning, pages 6105– 6114. 機械学習に関する国際会議、6105-6114頁。 0.69
PMLR, 2019. 2019年、PMLR。 0.72
[13] Sanghyun Woo, Jongchan Park, Joon-Young Lee, and In So Kweon. [13]サンギュンウー、ジョンチャン・パーク、ジュンヨン・リー、イン・ソ・クワイン。 0.62
Cbam: Convolutional block attention module. Cbam: 進化的ブロックアテンションモジュール。 0.67
In Proceedings of the European conference on computer vision (ECCV), pages 3–19, 2018. Proceedings of the European Conference on Computer Vision (ECCV)で、2018年3-19頁。 0.78
[14] Qilong Wang, Banggu Wu, Pengfei Zhu, Peihua Li, Wangmeng Zuo, and Qinghua Hu. [14]慶龍王、文王、Pengfei Zhu、Peihua Li、Wangmeng Zuo、Qinghua Hu。 0.30
Eca-net: Efficient channel attention for deep convolutional neural networks, 2020. Eca-net: 深層畳み込みニューラルネットワークの効率的なチャネルアテンション。 0.68
[15] Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie, Jian Shao, Wei Liu, and Tat-Seng Chua. [15]長陳・漢王張・順Xiao・Liqiang Nie・Jian Shao・Wei Liu・Tat-Seng Chua
訳抜け防止モード: 15 ] 長 陳, 漢 張, ジュン・シャオ, liqiang nie, jian shao, wei liu, and tat - seng chua。
0.65
Sca-cnn: Spatial and channel-wise attention in convolutional networks for image captioning. Sca-cnn: 画像キャプションのための畳み込みネットワークにおける空間的およびチャネル的注意。 0.62
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5659– 5667, 2017. ieee conference on computer vision and pattern recognition (ieee conference on computer vision and pattern recognition) の議事録では、2017年の5659-5667ページが掲載されている。 0.44
[16] Xuan Nie, Haoxuan Ding, Manhua Qi, Yifei Wang, and Edward K Wong. [16]Xuan Nie、Haoxuan Ding、Manhua Qi、Yifei Wang、Edward K Wong。 0.67
Urca-gan: Upsample residual channelwise attention generative adversarial network for imageto-image translation. Urca-gan: 画像・画像翻訳のためのチャンネルワイド・アテンション生成対向ネットワーク 0.59
Neurocomputing, 443:75–84, 2021. ニューロコンピューティング、433:75-84、2021。 0.40
[17] Jun Fu, Jing Liu, Haijie Tian, Yong Li, Yongjun Bao, Zhiwei Fang, and Hanqing Lu. [17]順風、仁利、海江天、永利、永順馬王、智ワイファン、漢慶ル。 0.52
Dual attention network for scene segmentation. シーンセグメンテーションのためのデュアルアテンションネットワーク 0.66
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3146–3154, 2019. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 3146–3154, 2019。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 3146-3154頁、2019年。
0.81
[18] Xin Liu, Guobao Xiao, Luanyuan Dai, Kun Zeng, Changcai Yang, and Riqing Chen. 【18]新入、月葉大、ルアンユアン大、クン・ゼン、チャンガカイ・ヤン、理清チェン 0.58
Scsa-net: Presentation of two-view reliable correspondence learning via spatialchannel self-attention. Scsa-net:空間チャネル自己注意による2視点信頼対応学習の提示 0.64
Neurocomputing, 431:137–147, 2021. ニューロコンピューティング、431:137–147、2021。 0.46
[19] Yan Tian, Yujie Zhang, Di Zhou, Guohua Cheng, WeiGang Chen, and Ruili Wang. 19] ヤン・チアン、 ユジー・ザン、 周、 グアワ・チェン、 ワイガン・チェン、 ルイリ・ワン 0.51
Triple attention network for video segmentation. ビデオセグメンテーションのための三重注意ネットワーク 0.77
Neurocomputing, 417:202–211, 2020. ニューロコンピューティング、2020年417:202-211。 0.43
[20] Irwan Bello, Barret Zoph, Ashish Vaswani, Jonathon Shlens, and Quoc V Le. [20]Irwan Bello、Barret Zoph、Ashish Vaswani、Jonathon Shlens、Quoc V Le。 0.33
Attention augmented convolutional networks. 注意を促す畳み込みネットワーク。 0.68
In Proceedings of the IEEE/CVF international conference on computer vision, pages 3286–3295, 2019. IEEE/CVF国際コンピュータビジョン会議Proceedings of the IEEE/CVF International Conference on computer vision, pages 3286–3295, 2019。 0.66
[21] Bichen Wu, Chenfeng Xu, Xiaoliang Dai, Alvin Wan, Peizhao Zhang, Zhicheng Yan, Masayoshi Tomizuka, Joseph Gonzalez, Kurt Keutzer, and Peter Vajda. [21]ビチェン・ウー、陳風、Xiaoliang Dai、Alvin Wan、Peizhao Zhang、Zhicheng Yan、Tomizuka Masayoshi、Joseph Gonzalez、Kurt Keutzer、Peter Vajda。
訳抜け防止モード: 〔21〕備チェン・ウー、チェン・xu、シャオリアン・ダイ、 alvin wan, peizhao zhang, zhicheng yan, tomizuka joseph gonzalez氏、kurt keutzer氏、peter vajda氏。
0.59
Visual transformers: Token-based image representation and processing for computer vision. 視覚トランスフォーマー:コンピュータビジョンのためのトークンベースの画像表現と処理。 0.75
arXiv preprint arXiv:2006.03677, 2020. arxiv プレプリント arxiv:2006.03677, 2020 0.44
[22] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al An image is worth 16x16 words: arXiv Transformers for image recognition at scale. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al Image is worth 16x16 words: arXiv Transformers for image Recognition at scale. 0.40
preprint arXiv:2010.11929, 2020. arXiv:2010.11929, 2020 0.38
[23] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, and Jonathon Shlens. Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, Jonathon Shlens。 0.31
arXiv Stand-alone self-attention in vision models. arXiv 視覚モデルにおけるスタンドアローンの自己注意。 0.63
preprint arXiv:1906.05909, 2019. プレプリントarxiv: 1906.05909, 2019。 0.48
英語(論文から抽出)日本語訳スコア
Local Multi-Head Channel Self-Attention for Facial Expression Recognition — 12/12 表情認識のための局所的マルチヘッドチャネルセルフアテンション - 12/12 0.77
[38] Jean-Baptiste Cordonnier, Andreas Loukas, and Martin Jaggi. [38]Jean-Baptiste Cordonnier、Andreas Loukas、Martin Jaggi。 0.39
Multi-head attention: Collaborate instead of concatenate. 多面的注意:共役ではなく共役する。 0.52
arXiv preprint arXiv:2006.16362, 2020. arxiv プレプリント arxiv:2006.16362, 2020 0.43
[39] Sainbayar Sukhbaatar, Edouard Grave, Piotr Bojanowski, and Armand Joulin. 39]Sainbayar Sukhbaatar, Eduard Grave, Piotr Bojanowski, Armand Joulin。 0.31
Adaptive attention span in transformers. 変圧器の適応的注意スパン 0.67
arXiv preprint arXiv:1905.07799, 2019. arXiv preprint arXiv: 1905.07799, 2019 0.40
[40] Miquel India, Pooyan Safari, and Javier Hernando. Miquel India, Pooyan Safari, そしてJavier Hernando。 0.55
Self arXiv Self arXiv 0.42
multi-head attention for speaker recognition. 話者認識のためのマルチヘッド注意 0.68
preprint arXiv:1906.09890, 2019. プレプリントarxiv: 1906.09890, 2019。 0.47
[24] Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, Lukasz Kaiser, Noam Shazeer, Alexander Ku, and Dustin Tran. 24]ニキ・パルマー、アッシュッシュ・ヴァスワニ、ヤコブ・ウスコレイト、ルカシュ・カイザー、ノアム・シャザー、アレクサンドル・クー、ダスティン・トラン
訳抜け防止モード: [24 ]ニキ・パルマル,アシシュ・ヴァスワニ,ヤコブ・ウスコレイト, Lukasz Kaiser、Noam Shazeer、Alexander Ku、Dustin Tran。
0.59
Image transformer. 画像トランスフォーマー。 0.62
In International Conference on Machine Learning, pages 4055–4064. 機械学習に関する国際会議、4055-4064頁。 0.76
PMLR, 2018. 2018年、PMLR。 0.68
[25] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. [25]Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena. 0.38
Self-attention generative adversarial networks. 自己アテンション生成敵ネットワーク。 0.69
In International conference on machine learning, pages 7354–7363. 機械学習に関する国際会議」7354-7363頁。 0.78
PMLR, 2019. 2019年、PMLR。 0.72
[26] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. 26]ゼ・リウ、ユトン・リン、ユエ・カオ、ハン・フー、イク・アン・ウェイ、ジン・チャン、スティーブン・リン、バイニング・グオ 0.52
Swin transformer: Hierarchical vision transformer using shifted windows. swin transformer:シフトウィンドウを用いた階層型視覚トランスフォーマー。 0.76
arXiv preprint arXiv:2103.14030, 2021. arxiv プレプリント arxiv:2103.14030, 2021。 0.40
[27] Zihang Dai, Hanxiao Liu, Quoc V Le, and Mingxing Tan. [27]Zihang Dai、Hanxiao Liu、Quoc V Le、Mingxing Tan。 0.31
Coatnet: Marrying convolution and attention for all data sizes. Coatnet: すべてのデータサイズに対するコンボリューションとアテンションの結婚。 0.77
arXiv preprint arXiv:2106.04803, 2021. arxiv プレプリント arxiv:2106.04803, 2021。 0.41
[28] Robert Gens and Pedro M Domingos. 28] ロバート・ジェンズとペドロ・m・ドミンゴス 0.57
Deep symmetry networks. ディープ対称性ネットワーク。 0.70
Advances in neural information processing systems, 27:2537–2545, 2014. ニューラル情報処理システムの進歩, 27:2537–2545, 2014 0.81
[29] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. [29] 自封大、ハジ・チー、ユウェン・クオン、イ・リー、グードン・チャン、ハン・フー、イヒェン・ウェイ 0.48
Deformable convolutional networks. 変形可能な畳み込みネットワーク。 0.64
In Proceedings of the IEEE international conference on computer vision, pages 764–773, 2017. IEEEのコンピュータビジョン国際会議Proceedings of the IEEE International Conference on computer vision, page 764–773, 2017。 0.73
[30] Hieu Pham, Zihang Dai, Qizhe Xie, and Quoc V Le. 30]hieu pham、zihang dai、qizhe xie、quoc v le。 0.53
Meta pseudo labels. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11557–11568, 2021. メタ擬似ラベル。 The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 11557–11568, 2021。
訳抜け防止モード: メタ擬似ラベル。 IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 11557-11568、2021年。
0.74
[31] Shervin Minaee, Mehdi Minaei, and Amirali Abdolrashidi. He31] Shervin Minaee, Mehdi Minaei, Amirali Abdolrashidi 0.29
Deep-emotion: Facial expression recognition using attentional convolutional network. deep-emotion:注意畳み込みネットワークを用いた表情認識 0.76
Sensors, 21(9):3046, 2021. センサ,21(9)3046,2021。 0.71
[32] Christopher Pramerdorfer and Martin Kampel. クリストファー・プラマードルファーとマルティン・カンペル。 0.37
Facial expression recognition using convolutional neural networks: state-of-the-art. 畳み込みニューラルネットワークを用いた表情認識:最先端技術 0.71
arXiv preprint arXiv:1612.02903, 2016. arxiv プレプリント arxiv:1612.02903, 2016 0.42
[33] Amil Khanzada, Charles Bai, and Ferhat Turker Celepcikay. [33]Amil Khanzada、Charles Bai、Ferhat Turker Celepcikay。 0.31
Facial expression recognition with deep learning. 深層学習による表情認識 0.52
arXiv preprint arXiv:2004.11823, 2020. arxiv プレプリント arxiv:2004.11823, 2020 0.43
[34] Yousif Khaireddin and Zhuofa Chen. [34]Yousif K hairdinとZhuofa Chen。 0.35
Facial emotion recognition: State of the art performance on fer2013. 顔の感情認識: fer2013のアートパフォーマンスの現状。 0.75
arXiv preprint arXiv:2105.03588, 2021. arXiv preprint arXiv:2105.03588, 2021 0.40
[35] Luan Pham, The Huynh Vu, and Tuan Anh Tran. [35]Luan Pham、The Huynh Vu、Tuan Anh Tran。 0.33
Facial expression recognition using residual masking network. 残留マスキングネットワークを用いた顔表情認識 0.77
In 2020 25th International Conference on Pattern Recognition (ICPR), pages 4513–4519. 2020年の第25回国際パターン認識会議(ICPR)、4513-4519頁。 0.73
IEEE, 2021. IEEE、2021年。 0.81
[36] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Alex Krizhevsky氏、Ilya Sutskever氏、Geoffrey E Hinton氏。 0.32
Imagenet classification with deep convolutional neural networks. 深部畳み込みニューラルネットワークを用いた画像ネット分類 0.83
Advances in neural information processing systems, 25:1097–1105, 2012. ニューラル情報処理システムの進歩, 25:1097–1105, 2012 0.79
[37] Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, and Ivan Titov. [37]エレナ・ヴォイタ、デビッド・タルボット、フェドル・モイセフ、リコ・センリヒ、イヴァン・チトフ 0.42
Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned. マルチヘッド・セルフアテンションの分析: 特殊なヘッドは重い持ち上げを行い、残りは刈り取ることができる。 0.60
arXiv preprint arXiv:1905.09418, 2019. arXiv preprint arXiv: 1905.09418, 2019 0.40
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。