論文の概要: Two-Level Attention-based Fusion Learning for RGB-D Face Recognition
- arxiv url: http://arxiv.org/abs/2003.00168v3
- Date: Sun, 18 Oct 2020 10:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:09:44.191090
- Title: Two-Level Attention-based Fusion Learning for RGB-D Face Recognition
- Title(参考訳): RGB-D顔認識のための2レベル注意に基づく融合学習
- Authors: Hardik Uppal, Alireza Sepas-Moghaddam, Michael Greenspan and Ali
Etemad
- Abstract要約: RGBと深度という2つの画像モダリティを融合させてRGB-D顔認識を向上する新しいアテンションアウェアメント手法を提案する。
提案手法はまず,畳み込み特徴抽出器を用いて両モードから特徴を抽出する。
これらの特徴は、2層アテンション機構を用いて融合される。
- 参考スコア(独自算出の注目度): 21.735238213921804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent advances in RGB-D sensing technologies as well as improvements in
machine learning and fusion techniques, RGB-D facial recognition has become an
active area of research. A novel attention aware method is proposed to fuse two
image modalities, RGB and depth, for enhanced RGB-D facial recognition. The
proposed method first extracts features from both modalities using a
convolutional feature extractor. These features are then fused using a
two-layer attention mechanism. The first layer focuses on the fused feature
maps generated by the feature extractor, exploiting the relationship between
feature maps using LSTM recurrent learning. The second layer focuses on the
spatial features of those maps using convolution. The training database is
preprocessed and augmented through a set of geometric transformations, and the
learning process is further aided using transfer learning from a pure 2D RGB
image training process. Comparative evaluations demonstrate that the proposed
method outperforms other state-of-the-art approaches, including both
traditional and deep neural network-based methods, on the challenging
CurtinFaces and IIIT-D RGB-D benchmark databases, achieving classification
accuracies over 98.2% and 99.3% respectively. The proposed attention mechanism
is also compared with other attention mechanisms, demonstrating more accurate
results.
- Abstract(参考訳): 近年のRGB-Dセンシング技術と機械学習と融合技術の改良により、RGB-D顔認識は研究の活発な領域となっている。
RGBと深度という2つの画像モダリティを融合させてRGB-D顔認識を向上する新しいアテンションアウェアメント手法を提案する。
提案手法はまず,畳み込み特徴抽出器を用いて両モードから特徴を抽出する。
これらの機能は2層アテンション機構を使って融合される。
第1層は特徴抽出器が生成する融合特徴写像に着目し,LSTM再帰学習を用いた特徴写像の関係を利用した。
第2層は畳み込みを用いてこれらの地図の空間的特徴に焦点を当てている。
トレーニングデータベースは、幾何変換によって事前処理および拡張され、純粋な2次元RGB画像トレーニングプロセスからの転写学習を用いて学習プロセスをさらに支援する。
比較評価により、提案手法は、従来のニューラルネットワークとディープニューラルネットワークに基づく手法の両方を含む他の最先端手法よりも、挑戦的なCurtinFacesとIIIT-D RGB-Dベンチマークデータベースよりも優れており、それぞれ98.2%と99.3%の分類精度が達成されている。
提案したアテンション機構は他のアテンション機構と比較し、より正確な結果を示す。
関連論文リスト
- Multispectral Texture Synthesis using RGB Convolutional Neural Networks [2.3213238782019316]
最先端のRGBテクスチャ合成アルゴリズムは、深い特徴の統計によって計算されるスタイル距離に依存している。
本稿では,これらの手法をマルチスペクトルイメージングに拡張する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-21T13:49:54Z) - UGAD: Universal Generative AI Detector utilizing Frequency Fingerprints [18.47018538990973]
本研究では,AI生成画像を検出するための新しいマルチモーダル手法を提案する。
提案手法は,実画像とAI画像の識別精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-12T10:29:37Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency
Detection [10.589062261564631]
RGB-Tサリエンシ検出は、暗黒環境のような困難な場面で顕著な物体を識別する重要なコンピュータビジョンタスクとして登場した。
既存の手法では、クロスモーダルの特徴を無視し、RGBと熱的特徴を融合させるネットワーク構造のみに依存している。
まず、教師付きおよび自己教師付き損失関数を含むマルチモーダルハイブリッド損失(MMHL)を提案する。
論文 参考訳(メタデータ) (2023-09-13T20:47:29Z) - Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。
ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。
代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文 参考訳(メタデータ) (2023-07-19T16:42:52Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Learning Geodesic-Aware Local Features from RGB-D Images [8.115075181267109]
非剛性変形に不変なRGB-D画像から記述子を計算するための新しい手法を提案する。
提案手法は,非歪な局所像パッチ上で特徴表現を学習する鍵となる考え方に基づいている。
実際に利用可能なRGB-Dデータベンチマークを使用したさまざまな実験では、最先端の手作りおよび学習ベースのイメージとRGB-D記述子を一貫して上回っている。
論文 参考訳(メタデータ) (2022-03-22T19:52:49Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。