論文の概要: Multi-Domain Norm-referenced Encoding Enables Data Efficient Transfer
Learning of Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2304.02309v1
- Date: Wed, 5 Apr 2023 09:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:01:35.785489
- Title: Multi-Domain Norm-referenced Encoding Enables Data Efficient Transfer
Learning of Facial Expression Recognition
- Title(参考訳): マルチドメインノルム参照符号化による表情認識のためのデータ伝達学習
- Authors: Michael Stettler, Alexander Lappe, Nick Taubert, Martin Giese
- Abstract要約: 本稿では,表情認識における伝達学習のための生物学的メカニズムを提案する。
提案アーキテクチャでは,人間の脳が,頭部形状の異なる表情を自然に認識する方法について解説する。
本モデルでは, FERGデータセットの分類精度92.15%を極端に高いデータ効率で達成する。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People can innately recognize human facial expressions in unnatural forms,
such as when depicted on the unusual faces drawn in cartoons or when applied to
an animal's features. However, current machine learning algorithms struggle
with out-of-domain transfer in facial expression recognition (FER). We propose
a biologically-inspired mechanism for such transfer learning, which is based on
norm-referenced encoding, where patterns are encoded in terms of difference
vectors relative to a domain-specific reference vector. By incorporating
domain-specific reference frames, we demonstrate high data efficiency in
transfer learning across multiple domains. Our proposed architecture provides
an explanation for how the human brain might innately recognize facial
expressions on varying head shapes (humans, monkeys, and cartoon avatars)
without extensive training. Norm-referenced encoding also allows the intensity
of the expression to be read out directly from neural unit activity, similar to
face-selective neurons in the brain. Our model achieves a classification
accuracy of 92.15\% on the FERG dataset with extreme data efficiency. We train
our proposed mechanism with only 12 images, including a single image of each
class (facial expression) and one image per domain (avatar). In comparison, the
authors of the FERG dataset achieved a classification accuracy of 89.02\% with
their FaceExpr model, which was trained on 43,000 images.
- Abstract(参考訳): 人は、漫画に描かれた異常な顔に描かれたり、動物の特徴に当てはめたりするなど、不自然な形の人間の表情を自然に認識することができる。
しかし、現在の機械学習アルゴリズムは、表情認識(fer)のドメイン外転送に苦労している。
そこで本研究では, 領域特異的参照ベクトルに対する差分ベクトルを用いてパターンを符号化するノルム参照符号化に基づく, 生物学的にインスパイアされたトランスファー学習機構を提案する。
ドメイン固有の参照フレームを組み込むことで、複数のドメインにわたる転送学習において高いデータ効率を示す。
提案したアーキテクチャは、人間の脳が様々な頭形(人間、サル、漫画のアバター)の表情を、広範囲の訓練なしに自然に認識する方法を説明する。
Norm-referenced encodingは、脳の顔選択的ニューロンと同様に、神経単位の活動から直接発現の強度を読み取ることを可能にする。
本モデルでは, FERGデータセットの分類精度92.15\%を極端なデータ効率で達成する。
提案するメカニズムは,各クラス(表情)の1つの画像とドメイン毎の1つの画像(アバター)を含む,わずか12のイメージで訓練する。
一方、FERGデータセットの著者らは、43,000の画像でトレーニングされたFaceExprモデルと89.02\%の分類精度を達成した。
関連論文リスト
- Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Disentangling Identity and Pose for Facial Expression Recognition [54.50747989860957]
より識別的な特徴表現を学習するために,識別モデルを提案し,不整形表情認識(IPD-FER)モデルを提案する。
アイデンティティエンコーダでは、訓練中に訓練済みの顔認識モデルを利用して固定し、特定の表情訓練データに対する制限を軽減する。
合成された中性画像と同一個体の表情画像との差を比較することにより、表現成分はアイデンティティやポーズからさらに切り離される。
論文 参考訳(メタデータ) (2022-08-17T06:48:13Z) - Exploiting Emotional Dependencies with Graph Convolutional Networks for
Facial Expression Recognition [31.40575057347465]
本稿では,視覚における表情認識のためのマルチタスク学習フレームワークを提案する。
MTL設定において、離散認識と連続認識の両方のために共有特徴表現が学習される。
実験の結果,本手法は離散FER上での最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-07T10:20:05Z) - Facial expression and attributes recognition based on multi-task
learning of lightweight neural networks [9.162936410696409]
顔の識別と顔の属性の分類のための軽量畳み込みニューラルネットワークのマルチタスクトレーニングを検討する。
顔の表情を予測するためには,これらのネットワークを微調整する必要がある。
MobileNet、EfficientNet、RexNetアーキテクチャに基づくいくつかのモデルが提示される。
論文 参考訳(メタデータ) (2021-03-31T14:21:04Z) - Human Expression Recognition using Facial Shape Based Fourier
Descriptors Fusion [15.063379178217717]
本論文では,顔面筋の変化に基づく新しい表情認識法を提案する。
幾何学的特徴は、口、目、鼻などの顔領域を特定するために用いられる。
7つの人間の表現の分類にマルチクラスサポートベクターマシンが適用される。
論文 参考訳(メタデータ) (2020-12-28T05:01:44Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Seeing eye-to-eye? A comparison of object recognition performance in
humans and deep convolutional neural networks under image manipulation [0.0]
本研究では,ヒトとフィードフォワードニューラルネットワークの視覚コア物体認識性能の行動比較を目的とした。
精度分析の結果、人間はDCNNを全ての条件で上回るだけでなく、形状や色の変化に対する強い堅牢性も示している。
論文 参考訳(メタデータ) (2020-07-13T10:26:30Z) - Domain Adaptation with Morphologic Segmentation [8.0698976170854]
本稿では,任意の入力領域(実領域と合成領域)の画像を一様出力領域に変換するために,形態的セグメンテーションを用いた新しいドメイン適応フレームワークを提案する。
私たちのゴールは、複数のソースからのデータを共通の表現に統一する前処理のステップを確立することです。
都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-06-16T17:06:02Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。