論文の概要: Learning to Amend Facial Expression Representation via De-albino and
Affinity
- arxiv url: http://arxiv.org/abs/2103.10189v1
- Date: Thu, 18 Mar 2021 11:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:00:18.569023
- Title: Learning to Amend Facial Expression Representation via De-albino and
Affinity
- Title(参考訳): de-albinoと親和性を利用した表情表現の修正学習
- Authors: Jiawei Shi and Songhao Zhu
- Abstract要約: Amend Representation Module (ARM) は、プール層に代わるものだ。
ARMは2つの異なる方向からの表情表現を効率的に高めます。
当社のARMは、顔認識(FER)のパフォーマンスを著しく向上させます。
- 参考スコア(独自算出の注目度): 0.5076419064097732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial Expression Recognition (FER) is a classification task that points to
face variants. Hence, there are certain intimate relationships between facial
expressions. We call them affinity features, which are barely taken into
account by current FER algorithms. Besides, to capture the edge information of
the image, Convolutional Neural Networks (CNNs) generally utilize a host of
edge paddings. Although they are desirable, the feature map is deeply eroded
after multi-layer convolution. We name what has formed in this process the
albino features, which definitely weaken the representation of the expression.
To tackle these challenges, we propose a novel architecture named Amend
Representation Module (ARM). ARM is a substitute for the pooling layer.
Theoretically, it could be embedded in any CNN with a pooling layer. ARM
efficiently enhances facial expression representation from two different
directions: 1) reducing the weight of eroded features to offset the side effect
of padding, and 2) sharing affinity features over mini-batch to strengthen the
representation learning. In terms of data imbalance, we designed a minimal
random resampling (MRR) scheme to suppress network overfitting. Experiments on
public benchmarks prove that our ARM boosts the performance of FER remarkably.
The validation accuracies are respectively 90.55% on RAF-DB, 64.49% on
Affect-Net, and 71.38% on FER2013, exceeding current state-of-the-art methods.
- Abstract(参考訳): 表情認識(英: face expression recognition、fer)は、顔の変種を分類するタスクである。
したがって、表情には特定の親密な関係がある。
現在のFERアルゴリズムではほとんど考慮されていないアフィニティ機能と呼ぶ。
さらに、画像のエッジ情報をキャプチャするために、畳み込みニューラルネットワーク(cnns)は一般にエッジパディングのホストを使用する。
それらは望ましいが、多層畳み込みの後、フィーチャマップは深く侵食される。
このプロセスで形成されたものをアルビノの特徴(albino features)と命名し、表現の表現を弱めます。
これらの課題に対処するため、Amend Representation Module (ARM) という新しいアーキテクチャを提案する。
ARMはプール層に代わるものだ。
理論的には、プール層を持つ任意のCNNに組み込むことができる。
ARMは,1) 浸食した特徴の重みを減らしてパディングの副作用を相殺する,2) ミニバッチ上での親和性を共有して表現学習を強化する,という2つの方向から表情表現を効果的に強化する。
データ不均衡の観点から、ネットワーク過適合を抑制するために、最小ランダム再サンプリング(MRR)方式を設計した。
公開ベンチマークの実験は、ARMがFERのパフォーマンスを著しく向上させることを示した。
検証精度はRAF-DBで90.55%、Affect-Netで64.49%、FER2013で71.38%であり、最先端の手法よりも高い。
関連論文リスト
- Bridging the Gaps: Utilizing Unlabeled Face Recognition Datasets to Boost Semi-Supervised Facial Expression Recognition [5.750927184237346]
我々は、半教師付きFERを高めるために、大きな未ラベルの顔認識(FR)データセットを活用することに重点を置いている。
具体的には,アノテーションを使わずに大規模な顔画像の事前訓練を行う。
ラベル付き画像や多彩な画像の不足を緩和するために、Mixupベースのデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2024-10-23T07:26:19Z) - A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition [2.9581436761331017]
これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。
本稿では,マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提案する。
提案手法は,パラメータ数やロバスト性の観点から,最先端手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2024-03-21T11:40:51Z) - Adaptive Face Recognition Using Adversarial Information Network [57.29464116557734]
顔認識モデルは、トレーニングデータがテストデータと異なる場合、しばしば退化する。
本稿では,新たな敵情報ネットワーク(AIN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:14:11Z) - More comprehensive facial inversion for more effective expression
recognition [8.102564078640274]
IFER(Inversion FER)と呼ばれるFERタスクの画像反転機構に基づく新しい生成手法を提案する。
ASITは、分布アライメント損失に制約された、ソースと生成された画像間のセマンティック特徴のコサイン類似度を測定する画像反転判別器を備えている。
FFHQやCelebA-HQなどの顔データセット上でASITを広範囲に評価し,現状の顔インバージョン性能を実現する方法を示した。
論文 参考訳(メタデータ) (2022-11-24T12:31:46Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - Implementing a foveal-pit inspired filter in a Spiking Convolutional
Neural Network: a preliminary study [0.0]
我々は,網膜卵管刺激によるガウスフィルタとランク順符号化の差異を取り入れたスポーキング畳み込みニューラルネットワーク(SCNN)を提示した。
このモデルは、Nengoライブラリーで実装されているように、スパイキングニューロンで動作するように適応されたバックプロパゲーションアルゴリズムの変種を用いて訓練される。
ネットワークは最大90%の精度で達成され、損失はクロスエントロピー関数を用いて計算される。
論文 参考訳(メタデータ) (2021-05-29T15:28:30Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Relational Deep Feature Learning for Heterogeneous Face Recognition [17.494718795454055]
一般的な顔の特徴に加えて,グローバルな関係情報を抽出するグラフモジュール (Graph Module, NIR) を提案する。
提案手法は,5つの異種顔認識(HFR)データベースにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-02T07:35:23Z) - Suppressing Uncertainties for Large-Scale Facial Expression Recognition [81.51495681011404]
本稿では,不確実性を効果的に抑制し,深層ネットワークが不確実な顔画像に過度に収まらないような,シンプルで効率的なセルフキュアネットワーク(SCN)を提案する。
公開ベンチマークの結果、我々のSCNは現在の最先端メソッドよりも、RAF-DBで textbf88.14%、AffectNetで textbf60.23%、FERPlusで textbf89.35% を上回りました。
論文 参考訳(メタデータ) (2020-02-24T17:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。