論文の概要: Multi-scale multi-modal micro-expression recognition algorithm based on
transformer
- arxiv url: http://arxiv.org/abs/2301.02969v2
- Date: Wed, 11 Jan 2023 03:04:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 11:52:50.430736
- Title: Multi-scale multi-modal micro-expression recognition algorithm based on
transformer
- Title(参考訳): 変圧器を用いたマルチスケールマルチモーダルマイクロ圧縮認識アルゴリズム
- Authors: Fengping Wang, Jie Li, Chun Qi, Lin Wang, Pan Wang
- Abstract要約: マイクロ・エクスプレッション(micro-expression)は、人々が隠そうとする真の感情を明らかにする、自然に無意識の顔面筋運動である。
マイクロ表現の局所的多粒度特徴を学習するためのトランスフォーマーネットワークに基づくマルチモーダルマルチスケールアルゴリズムを提案する。
その結果、単一測定SMICデータベースにおける提案アルゴリズムの精度は78.73%、組合せデータベースのCASMEII上のF1値は最大0.9071であることがわかった。
- 参考スコア(独自算出の注目度): 17.980579727286518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A micro-expression is a spontaneous unconscious facial muscle movement that
can reveal the true emotions people attempt to hide. Although manual methods
have made good progress and deep learning is gaining prominence. Due to the
short duration of micro-expression and different scales of expressed in facial
regions, existing algorithms cannot extract multi-modal multi-scale facial
region features while taking into account contextual information to learn
underlying features. Therefore, in order to solve the above problems, a
multi-modal multi-scale algorithm based on transformer network is proposed in
this paper, aiming to fully learn local multi-grained features of
micro-expressions through two modal features of micro-expressions - motion
features and texture features. To obtain local area features of the face at
different scales, we learned patch features at different scales for both
modalities, and then fused multi-layer multi-headed attention weights to obtain
effective features by weighting the patch features, and combined cross-modal
contrastive learning for model optimization. We conducted comprehensive
experiments on three spontaneous datasets, and the results show the accuracy of
the proposed algorithm in single measurement SMIC database is up to 78.73% and
the F1 value on CASMEII of the combined database is up to 0.9071, which is at
the leading level.
- Abstract(参考訳): マイクロ表現は、人々が隠そうとする真の感情を明らかにする、自発的な無意識の顔面筋肉運動である。
手動の手法は進歩し、深層学習が普及している。
顔領域で表現される様々なスケールのマイクロ圧縮が短いため、既存のアルゴリズムでは、背景となる特徴を学習するために文脈情報を考慮してマルチモーダルな顔領域の特徴を抽出することはできない。
そこで, この問題を解決するために, トランスフォーマーネットワークに基づくマルチモーダルマルチスケールアルゴリズムを提案し, マイクロ表現の局所的マルチグルーフ特徴を2つのモーダル特徴(動き特徴とテクスチャ特徴)を通して完全に学習することを目的とした。
異なるスケールで顔の局所的な特徴を得るために,両モードの異なるスケールでパッチの特徴を学習し,その特徴を重み付けして多層多層注意重み付けを行い,モデル最適化のためのクロスモーダルコントラスト学習を組み合わせた。
我々は3つの自発的データセットに関する総合的な実験を行い、その結果、単一測定SMICデータベースにおける提案アルゴリズムの精度は78.73%、組合せデータベースのCASMEII上のF1値は最大0.9071であることを示した。
関連論文リスト
- Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting [11.978551396144532]
本稿では,表情スポッティングのための効率的なフレームワークを提案する。
まず,スライディングウィンドウを用いたマルチリゾリューション・オプティカルフロー(SW-MRO)機能を提案する。
第2に,SW-MRO特徴の顔時間関係を同時に符号化し,フレームレベルの精度推定を行うマルチスケール時間変換器であるSpotFormerを提案する。
第3に,異なる種類の表現の識別性を高めるために,教師付きコントラスト学習をSpotFormerに導入する。
論文 参考訳(メタデータ) (2024-07-30T13:02:08Z) - Three-Stream Temporal-Shift Attention Network Based on Self-Knowledge Distillation for Micro-Expression Recognition [21.675660978188617]
ミクロな表現認識は、犯罪分析や心理療法など、多くの分野で重要である。
本稿では,SKD-TSTSANと呼ばれる自己知識蒸留に基づく3ストリーム時間シフトアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-25T13:22:22Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Micro-Expression Recognition Based on Attribute Information Embedding
and Cross-modal Contrastive Learning [22.525295392858293]
本稿では,属性情報埋め込みとクロスモーダルコントラスト学習に基づくマイクロ圧縮認識手法を提案する。
我々はCASME II と MMEW データベースで広範な実験を行い、精度はそれぞれ77.82% と 71.04% である。
論文 参考訳(メタデータ) (2022-05-29T12:28:10Z) - Video-based Facial Micro-Expression Analysis: A Survey of Datasets,
Features and Algorithms [52.58031087639394]
マイクロ表現は不随意かつ過渡的な表情である。
嘘検出や犯罪検出など、幅広い応用において重要な情報を提供することができる。
マイクロ表現は過渡的で低強度であるため、検出と認識は困難であり、専門家の経験に大きく依存する。
論文 参考訳(メタデータ) (2022-01-30T05:14:13Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - Micro-Facial Expression Recognition Based on Deep-Rooted Learning
Algorithm [0.0]
本稿では,MFEDRL(Micro-Facial Expression Based Deep-Rooted Learning)分類器を提案する。
アルゴリズムの性能は認識率と偽測度を用いて評価する。
論文 参考訳(メタデータ) (2020-09-12T12:23:27Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。