論文の概要: AFNet-M: Adaptive Fusion Network with Masks for 2D+3D Facial Expression
Recognition
- arxiv url: http://arxiv.org/abs/2205.11785v1
- Date: Tue, 24 May 2022 04:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 12:31:00.772471
- Title: AFNet-M: Adaptive Fusion Network with Masks for 2D+3D Facial Expression
Recognition
- Title(参考訳): AFNet-M:2D+3次元表情認識のためのマスク付き適応核融合ネットワーク
- Authors: Mingzhe Sui, Hanting Li, Zhaoqing Zhu, and Feng Zhao
- Abstract要約: 2D+3D顔表情認識(FER)は、照明の変化に効果的に対応し、バリエーションを呈することができる。
ほとんどのディープラーニングベースのアプローチは、単純な融合戦略を採用している。
2D+3D FERのためのマスク付き適応核融合ネットワーク (AFNet-M) を提案する。
- 参考スコア(独自算出の注目度): 1.8604727699812171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 2D+3D facial expression recognition (FER) can effectively cope with
illumination changes and pose variations by simultaneously merging 2D texture
and more robust 3D depth information. Most deep learning-based approaches
employ the simple fusion strategy that concatenates the multimodal features
directly after fully-connected layers, without considering the different
degrees of significance for each modality. Meanwhile, how to focus on both 2D
and 3D local features in salient regions is still a great challenge. In this
letter, we propose the adaptive fusion network with masks (AFNet-M) for 2D+3D
FER. To enhance 2D and 3D local features, we take the masks annotating salient
regions of the face as prior knowledge and design the mask attention module
(MA) which can automatically learn two modulation vectors to adjust the feature
maps. Moreover, we introduce a novel fusion strategy that can perform adaptive
fusion at convolutional layers through the designed importance weights
computing module (IWC). Experimental results demonstrate that our AFNet-M
achieves the state-of-the-art performance on BU-3DFE and Bosphorus datasets and
requires fewer parameters in comparison with other models.
- Abstract(参考訳): 2D+3D顔表情認識(FER)は、2Dテクスチャとより堅牢な3D深度情報とを同時に組み合わせることで、照明変化に効果的に対応し、変動を生じさせる。
深層学習に基づくほとんどのアプローチでは、各モダリティにおいて異なる重要性の度合いを考慮せずに、完全連結層に直接マルチモーダル特徴を結合する単純な融合戦略を採用している。
一方、2dと3dの両方のローカル機能にフォーカスする方法は依然として大きな課題だ。
本稿では2D+3D FERのためのマスク付き適応融合ネットワーク(AFNet-M)を提案する。
2Dおよび3Dの局所的特徴を高めるために,顔の有意な領域に注釈を付けるマスクを事前知識とし,2つの変調ベクトルを自動的に学習して特徴マップを調整可能なマスク注意モジュール(MA)を設計する。
さらに,iwc (designed importance weights computing module) による畳み込み層での適応型核融合が可能な新しい核融合戦略を提案する。
AFNet-MはBU-3DFEおよびBosphorusデータセット上での最先端性能を実現し,他のモデルと比較して少ないパラメータを必要とすることを示す。
関連論文リスト
- XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection [9.780498146964097]
リアルタイムモノクロ3Dオブジェクト検出のための革新的なネットワークアーキテクチャであるMonoMMを提案する。
MonoMM は Focused Multi-Scale Fusion (FMF) と Depth-Aware Feature Enhancement Mamba (DMB) モジュールで構成されている。
提案手法は,従来の単分子法よりも優れ,リアルタイム検出を実現する。
論文 参考訳(メタデータ) (2024-08-01T10:16:58Z) - PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文 参考訳(メタデータ) (2023-03-14T17:58:03Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape
Recognition [38.540048855119004]
そこで我々は,3次元形状検索と分類のためのLATFormer(Locality-Aware Point-View Fusion Transformer)を提案する。
LATFormerの中核となるコンポーネントはLocality-Aware Fusion (LAF) という名前のモジュールで、2つのモードにまたがる関連領域の局所的特徴を統合する。
LATFormerでは,LAFモジュールを用いて双方向および階層的に2つのモードのマルチスケール機能を融合し,より情報的な特徴を得る。
論文 参考訳(メタデータ) (2021-09-03T03:23:27Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。