論文の概要: CapsField: Light Field-based Face and Expression Recognition in the Wild
using Capsule Routing
- arxiv url: http://arxiv.org/abs/2101.03503v1
- Date: Sun, 10 Jan 2021 09:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 05:32:09.318672
- Title: CapsField: Light Field-based Face and Expression Recognition in the Wild
using Capsule Routing
- Title(参考訳): CapsField: カプセルルーティングを用いた野生における光場に基づく顔と表情認識
- Authors: Alireza Sepas-Moghaddam, Ali Etemad, Fernando Pereira, Paulo Lobato
Correia
- Abstract要約: 本稿では,畳み込みニューラルネットワークに基づく新しい深層顔・表情認識ソリューションであるCapsFieldを提案する。
提案手法は,最先端技術と比較して,顔および表情認識タスクにおいて優れた性能を実現する。
- 参考スコア(独自算出の注目度): 81.21490913108835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Light field (LF) cameras provide rich spatio-angular visual representations
by sensing the visual scene from multiple perspectives and have recently
emerged as a promising technology to boost the performance of human-machine
systems such as biometrics and affective computing. Despite the significant
success of LF representation for constrained facial image analysis, this
technology has never been used for face and expression recognition in the wild.
In this context, this paper proposes a new deep face and expression recognition
solution, called CapsField, based on a convolutional neural network and an
additional capsule network that utilizes dynamic routing to learn hierarchical
relations between capsules. CapsField extracts the spatial features from facial
images and learns the angular part-whole relations for a selected set of 2D
sub-aperture images rendered from each LF image. To analyze the performance of
the proposed solution in the wild, the first in the wild LF face dataset, along
with a new complementary constrained face dataset captured from the same
subjects recorded earlier have been captured and are made available. A subset
of the in the wild dataset contains facial images with different expressions,
annotated for usage in the context of face expression recognition tests. An
extensive performance assessment study using the new datasets has been
conducted for the proposed and relevant prior solutions, showing that the
CapsField proposed solution achieves superior performance for both face and
expression recognition tasks when compared to the state-of-the-art.
- Abstract(参考訳): 光場(LF)カメラは、複数の視点から視覚シーンを感知することで、リッチな空間角の視覚表現を提供し、近年、バイオメトリックスや感情計算などの人間機械システムの性能を高めるための有望な技術として登場した。
顔画像解析におけるlf表現の有意な成功にもかかわらず、この技術は野生では顔認識や表情認識に使われていない。
本稿では、畳み込みニューラルネットワークと、カプセル間の階層的関係を学習するために動的ルーティングを利用する追加のカプセルネットワークに基づいて、capsfieldと呼ばれる新しい深層顔・表情認識ソリューションを提案する。
CapsFieldは、顔画像から空間的特徴を抽出し、各LF画像から描画された選択された2次元サブアパーチャ画像の角部関係を学習する。
野生環境における提案手法の性能を解析するために,野生のlf顔データセットにおける第1号と,同一被写体から取得した新たな補完的制約付き顔データセットがキャプチャされ,利用可能となった。
in the wildデータセットのサブセットには、表情の異なる顔画像が含まれており、表情認識テストのコンテキストでの使用にアノテートされている。
新しいデータセットを用いた広範な性能評価研究が提案および関連する先行ソリューションに対して行われ、capsfieldの提案するソリューションは、最先端のソリューションと比較して、顔認識タスクと表情認識タスクの両方において優れたパフォーマンスを達成できることが示されている。
関連論文リスト
- MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - Alleviating Catastrophic Forgetting in Facial Expression Recognition with Emotion-Centered Models [49.3179290313959]
感情中心型生成的リプレイ (ECgr) は, 生成的対向ネットワークから合成画像を統合することで, この課題に対処する。
ECgrは、生成された画像の忠実性を保証するために品質保証アルゴリズムを組み込んでいる。
4つの多様な表情データセットに対する実験結果から,擬似リハーサル法により生成されたイメージを組み込むことで,ターゲットとするデータセットとソースデータセットのトレーニングが促進されることが示された。
論文 参考訳(メタデータ) (2024-04-18T15:28:34Z) - E2F-Net: Eyes-to-Face Inpainting via StyleGAN Latent Space [4.110419543591102]
我々は、E2F-Net(Eyes-to-Face Network)と呼ばれるGANベースのモデルを提案する。
提案手法は,2つの専用エンコーダを用いて眼周囲領域から同一性および非同一性の特徴を抽出する。
提案手法は,現在の手法を超越して,高品質な顔全体の再構築に成功していることを示す。
論文 参考訳(メタデータ) (2024-03-18T19:11:34Z) - Applying Unsupervised Semantic Segmentation to High-Resolution UAV Imagery for Enhanced Road Scene Parsing [12.558144256470827]
新規な教師なし道路解析フレームワークについて紹介する。
提案手法は,手動のアノテーションを使わずに,開発データセット上で89.96%のmIoUの平均インターセクションを実現する。
論文 参考訳(メタデータ) (2024-02-05T13:16:12Z) - Cross-view Self-localization from Synthesized Scene-graphs [1.9580473532948401]
クロスビューの自己ローカライゼーションは、スパース視点からデータベースイメージを提供する視覚的場所認識の難解なシナリオである。
生画像から計算したビュー不変外観特徴と合成画像から計算したビュー依存空間意味特徴の利点を組み合わせたハイブリッドシーンモデルを提案する。
論文 参考訳(メタデータ) (2023-10-24T04:16:27Z) - Multi-modal reward for visual relationships-based image captioning [4.354364351426983]
本稿では、画像のシーングラフから抽出した視覚的関係情報を画像の空間的特徴マップに融合させることにより、画像キャプションのためのディープニューラルネットワークアーキテクチャを提案する。
次に、共通埋め込み空間における言語と視覚の類似性の組み合わせを用いて、提案するネットワークの深層強化学習のためにマルチモーダル報酬関数を導入する。
論文 参考訳(メタデータ) (2023-03-19T20:52:44Z) - RoI Tanh-polar Transformer Network for Face Parsing in the Wild [50.8865921538953]
顔解析は、画像中のターゲット顔の顔成分のピクセルワイズラベルを予測することを目的としている。
既存のアプローチは通常、前処理中に計算されたバウンディングボックスに関して、入力画像からターゲット顔を取得する。
本稿では,画像全体を顔領域とコンテキストの固定比でTanh極表現に変換するRoI Tanh極変換を提案する。
第3に、Tanh極空間とTanh-Cartesian空間の両方に畳み込み層を含むハイブリッド残差表現学習ブロック、HybridBlockを提案する。
論文 参考訳(メタデータ) (2021-02-04T16:25:26Z) - MorphGAN: One-Shot Face Synthesis GAN for Detecting Recognition Bias [13.162012586770576]
本論文では, 頭部ポーズと表情調節を, 既視者の画像に適用するシミュレータについて述べる。
顔の小さなデータセットを新しいポーズと表現で拡張することで、増強やデータの不足に応じて、認識性能を最大9%向上することを示す。
論文 参考訳(メタデータ) (2020-12-09T18:43:03Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。