論文の概要: Depth as Attention for Face Representation Learning
- arxiv url: http://arxiv.org/abs/2101.00652v2
- Date: Mon, 5 Apr 2021 08:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 11:37:34.708659
- Title: Depth as Attention for Face Representation Learning
- Title(参考訳): 顔表現学習における奥行きの注意
- Authors: Hardik Uppal, Alireza Sepas-Moghaddam, Michael Greenspan and Ali
Etemad
- Abstract要約: 低コストRGB-Dセンサを用いた深度マルチモーダル顔認識のための新しい深度誘導型注意メカニズムを提案する。
この解は, 4つのデータセットに対して平均87.3% (+5.0%), 99.1% (+0.9%), 99.7% (+0.6%) および95.3% (+0.5%) の精度を達成する。
- 参考スコア(独自算出の注目度): 11.885178256393893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Face representation learning solutions have recently achieved great success
for various applications such as verification and identification. However, face
recognition approaches that are based purely on RGB images rely solely on
intensity information, and therefore are more sensitive to facial variations,
notably pose, occlusions, and environmental changes such as illumination and
background. A novel depth-guided attention mechanism is proposed for deep
multi-modal face recognition using low-cost RGB-D sensors. Our novel attention
mechanism directs the deep network "where to look" for visual features in the
RGB image by focusing the attention of the network using depth features
extracted by a Convolution Neural Network (CNN). The depth features help the
network focus on regions of the face in the RGB image that contains more
prominent person-specific information. Our attention mechanism then uses this
correlation to generate an attention map for RGB images from the depth features
extracted by CNN. We test our network on four public datasets, showing that the
features obtained by our proposed solution yield better results on the
Lock3DFace, CurtinFaces, IIIT-D RGB-D, and KaspAROV datasets which include
challenging variations in pose, occlusion, illumination, expression, and
time-lapse. Our solution achieves average (increased) accuracies of 87.3\%
(+5.0\%), 99.1\% (+0.9\%), 99.7\% (+0.6\%) and 95.3\%(+0.5\%) for the four
datasets respectively, thereby improving the state-of-the-art. We also perform
additional experiments with thermal images, instead of depth images, showing
the high generalization ability of our solution when adopting other modalities
for guiding the attention mechanism instead of depth information
- Abstract(参考訳): 顔表現学習ソリューションは最近、検証や識別など様々な用途で大きな成功を収めている。
しかし、純粋にrgb画像に基づく顔認識アプローチは、強度情報のみに依存しているため、顔のバリエーション、特にポーズ、咬合、照明や背景などの環境変化に敏感である。
低コストrgb-dセンサを用いた深部マルチモーダル顔認識のための新しい奥行き誘導注意機構を提案する。
我々の新しい注意機構は、畳み込みニューラルネットワーク(CNN)によって抽出された深度特徴を用いて、ネットワークの注意を集中させることにより、RGB画像の視覚的特徴の「どこを見るべきか」を深度ネットワークに誘導する。
ディープ機能は、より顕著な個人固有の情報を含むRGB画像の顔の領域にネットワークが焦点を合わせるのに役立つ。
そして、この相関を利用して、CNNが抽出した深度特徴からRGB画像のアテンションマップを生成する。
提案手法により得られた特徴がLock3DFace, CurtinFaces, IIIT-D RGB-D, KaspAROVデータセットにおいて, ポーズ, オクルージョン, 照明, 表現, タイムラプスの困難なバリエーションを含む, より優れた結果をもたらすことを示す。
この解法は, 4つのデータセットに対して平均87.3\%(+5.0\%), 99.1\%(+0.9\%), 99.7\%(+0.6\%), 95.3\%(+0.5\%)の精度をそれぞれ達成し, 最先端の精度を向上させる。
また、深度画像の代わりに熱画像による追加実験を行い、奥行き情報の代わりに注意機構を誘導する他のモダリティを採用する際に、ソリューションの高一般化能力を示す。
関連論文リスト
- Depth-based Privileged Information for Boosting 3D Human Pose Estimation on RGB [48.31210455404533]
ヒートマップに基づく3Dポーズ推定器は、推定時に与えられるRGBフレームから深度情報を幻覚することができる。
深度情報は、RGBベースの幻覚ネットワークを強制して、深度データのみに基づいて事前訓練されたバックボーンに類似した特徴を学習することによって、トレーニング中にのみ使用される。
論文 参考訳(メタデータ) (2024-09-17T11:59:34Z) - Depth Map Denoising Network and Lightweight Fusion Network for Enhanced
3D Face Recognition [61.27785140017464]
本稿では,ノイズを低減するために,DIIF(Denoising Implicit Image Function)に基づくDMDNet(Depth Map Denoising Network)を提案する。
さらに,光深度と標準核融合ネットワーク(LDNFNet)と呼ばれる強力な認識ネットワークを設計し,異なるモード間の特徴と相補的特徴を学習する。
論文 参考訳(メタデータ) (2024-01-01T10:46:42Z) - AGG-Net: Attention Guided Gated-convolutional Network for Depth Image
Completion [1.8820731605557168]
注意誘導ゲート畳み込みネットワーク(AGG-Net)に基づく深度画像補完のための新しいモデルを提案する。
符号化段階では、異なるスケールでの深度と色の特徴の融合を実現するために、AG-GConvモジュールが提案されている。
復号段階では、アテンションガイドスキップ接続(AG-SC)モジュールが提示され、再構成にあまりにも多くの深度に関係のない特徴を導入することを避ける。
論文 参考訳(メタデータ) (2023-09-04T14:16:08Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - Improving 2D face recognition via fine-level facial depth generation and
RGB-D complementary feature learning [0.8223798883838329]
顔深度生成ネットワークと改良されたマルチモーダル補完特徴学習ネットワークを提案する。
Lock3DFaceデータセットとIIIT-Dデータセットの実験は、提案したFFDGNetとI MCFLNetがRGB-D顔認識の精度を向上させることを示した。
論文 参考訳(メタデータ) (2023-05-08T02:33:59Z) - Physically-Based Face Rendering for NIR-VIS Face Recognition [165.54414962403555]
近赤外(NIR)と可視(VIS)の顔マッチングは、大きなドメインギャップのために困難である。
NIR-VIS対顔画像生成のための新しい手法を提案する。
アイデンティティ特徴学習を容易にするために,IDentityに基づく最大平均離散性(ID-MMD)損失を提案する。
論文 参考訳(メタデータ) (2022-11-11T18:48:16Z) - High-Accuracy RGB-D Face Recognition via Segmentation-Aware Face Depth
Estimation and Mask-Guided Attention Network [16.50097148165777]
ディープラーニングアプローチは、非常に大きな顔画像データセットでモデルをトレーニングすることで、極めて正確な顔認識を実現している。
大規模な2D顔画像データセットが利用可能であるのと異なり、大規模な3D顔データセットが公開されていない。
本稿では,RGB-D顔認識タスクを改善するための2つのCNNモデルを提案する。
論文 参考訳(メタデータ) (2021-12-22T07:46:23Z) - MobileSal: Extremely Efficient RGB-D Salient Object Detection [62.04876251927581]
本稿では,効率的なRGB-Dサルエント物体検出(SOD)に焦点を当てた新しいネットワーク,メソッド名を提案する。
RGB-D SODのためのモバイルネットワークの特徴表現能力を強化するために,暗黙的深度復元(IDR)手法を提案する。
IDRとCPRを組み込むことで、7つの挑戦的なRGB-D SODデータセット上のsArtメソッドに対してメソッド名が好ましい。
論文 参考訳(メタデータ) (2020-12-24T04:36:42Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。