Fugu-MT 論文翻訳(概要): Multi-scale multi-modal micro-expression recognition algorithm based on transformer

論文の概要: Multi-scale multi-modal micro-expression recognition algorithm based on transformer

arxiv url: http://arxiv.org/abs/2301.02969v1
Date: Sun, 8 Jan 2023 03:45:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-10 15:49:01.572591
Title: Multi-scale multi-modal micro-expression recognition algorithm based on transformer
Title（参考訳）: 変圧器を用いたマルチスケールマルチモーダルマイクロ圧縮認識アルゴリズム
Authors: Fengping Wang, Jie Li, Chun Qi, Lin Wang, Pan Wang
Abstract要約: マイクロ・エクスプレッション(micro-expression)は、人々が隠そうとする真の感情を明らかにする、自然に無意識の顔面筋運動である。単一測定SMICデータベースにおける提案アルゴリズムの精度は78.73%であり、組合せデータベースのCASMEII上のF1値は最大0.9071である。
参考スコア（独自算出の注目度）: 17.980579727286518
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A micro-expression is a spontaneous unconscious facial muscle movement that can reveal the true emotions people attempt to hide. Although manual methods have made good progress and deep learning is gaining prominence. Due to the short duration of micro-expression occurrence and different scales of expressing in facial regions, existing algorithms cannot extract multi-modal multi-scale facial region features while taking into account contextual information to learn underlying features. Therefore, in order to solve the above problems, a multi-modal multi-scale algorithm based on transformer network is proposed in this paper, aiming to fully learn local multi-grained features of micro-expressions through two modal features of micro-expressions - motion features and texture features. To obtain local area features of the face at different scales, we learned patch features at different scales for both modalities, and then fused multi-layer multi-headed attention weights to obtain effective features by weighting the patch features, and combined cross-modal contrastive learning for model optimization. We conducted comprehensive experiments on three spontaneous datasets, and the results show the accuracy of the proposed algorithm in single measurement SMIC database is up to 78.73% and the F1 value on CASMEII of the combined database is up to 0.9071, which is at the leading level.
Abstract（参考訳）: マイクロ表現は、人々が隠そうとする真の感情を明らかにする、自発的な無意識の顔面筋肉運動である。手動の手法は進歩し、深層学習が普及している。顔領域におけるマイクロ表現の出現期間が短いことや、顔領域での表現尺度が異なることから、既存のアルゴリズムでは、コンテキスト情報を考慮したマルチモーダルな顔領域特徴の抽出は不可能である。そこで, この問題を解決するために, トランスフォーマーネットワークに基づくマルチモーダルマルチスケールアルゴリズムを提案し, マイクロプレッションの局所的マルチグレード特徴を2つのモーダル特徴とテクスチャ特徴から完全に学習することを目的とした。異なるスケールで顔の局所的な特徴を得るために,両モードの異なるスケールでパッチの特徴を学習し,その特徴を重み付けして多層多層注意重み付けを行い,モデル最適化のためのクロスモーダルコントラスト学習を組み合わせた。我々は3つの自発的データセットに関する総合的な実験を行い、その結果、単一測定SMICデータベースにおける提案アルゴリズムの精度は78.73%、組合せデータベースのCASMEII上のF1値は最大0.9071であることを示した。

関連論文リスト

AHMSA-Net: Adaptive Hierarchical Multi-Scale Attention Network for Micro-Expression Recognition [15.008358563986825]
マイクロ圧縮認識のための適応階層型マルチスケールアテンションネットワーク(AHMSA-Net)を設計する。 AHMSA-Netはアダプティブ階層フレームワークとマルチスケールアテンションメカニズムの2つの部分から構成される。 AHMSA-Netは、複合データベース上で78.21%の認識精度を達成している。
論文参考訳（メタデータ） (2025-01-05T13:40:12Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting [11.978551396144532]
本稿では,表情スポッティングのための効率的なフレームワークを提案する。まず,スライディングウィンドウを用いたマルチリゾリューション・オプティカルフロー(SW-MRO)機能を提案する。第2に,SW-MRO特徴の顔時間関係を同時に符号化し,フレームレベルの精度推定を行うマルチスケール時間変換器であるSpotFormerを提案する。第3に,異なる種類の表現の識別性を高めるために,教師付きコントラスト学習をSpotFormerに導入する。
論文参考訳（メタデータ） (2024-07-30T13:02:08Z)
Three-Stream Temporal-Shift Attention Network Based on Self-Knowledge Distillation for Micro-Expression Recognition [21.675660978188617]
ミクロな表現認識は、犯罪分析や心理療法など、多くの分野で重要である。本稿では,SKD-TSTSANと呼ばれる自己知識蒸留に基づく3ストリーム時間シフトアテンションネットワークを提案する。
論文参考訳（メタデータ） (2024-06-25T13:22:22Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Micro-Expression Recognition Based on Attribute Information Embedding and Cross-modal Contrastive Learning [22.525295392858293]
本稿では,属性情報埋め込みとクロスモーダルコントラスト学習に基づくマイクロ圧縮認識手法を提案する。我々はCASME II と MMEW データベースで広範な実験を行い、精度はそれぞれ77.82% と 71.04% である。
論文参考訳（メタデータ） (2022-05-29T12:28:10Z)
Video-based Facial Micro-Expression Analysis: A Survey of Datasets, Features and Algorithms [52.58031087639394]
マイクロ表現は不随意かつ過渡的な表情である。嘘検出や犯罪検出など、幅広い応用において重要な情報を提供することができる。マイクロ表現は過渡的で低強度であるため、検出と認識は困難であり、専門家の経験に大きく依存する。
論文参考訳（メタデータ） (2022-01-30T05:14:13Z)
Short and Long Range Relation Based Spatio-Temporal Transformer for Micro-Expression Recognition [61.374467942519374]
我々は,マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチである,新しいアテンポ的トランスフォーマーアーキテクチャを提案する。空間パターンを学習する空間エンコーダと、時間的分析のための時間的次元分類と、ヘッドとを備える。広範に使用されている3つの自発的マイクロ圧縮データセットに対する総合的な評価は,提案手法が一貫して芸術の状態を上回っていることを示している。
論文参考訳（メタデータ） (2021-12-10T22:10:31Z)
LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。 3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文参考訳（メタデータ） (2021-12-03T03:43:18Z)
Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文参考訳（メタデータ） (2021-06-08T13:40:30Z)
Micro-Facial Expression Recognition Based on Deep-Rooted Learning Algorithm [0.0]
本稿では,MFEDRL(Micro-Facial Expression Based Deep-Rooted Learning)分類器を提案する。アルゴリズムの性能は認識率と偽測度を用いて評価する。
論文参考訳（メタデータ） (2020-09-12T12:23:27Z)
Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-21T10:45:09Z)
M2Net: Multi-modal Multi-channel Network for Overall Survival Time Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文参考訳（メタデータ） (2020-06-01T05:21:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。