論文の概要: MERANet: Facial Micro-Expression Recognition using 3D Residual Attention
Network
- arxiv url: http://arxiv.org/abs/2012.04581v1
- Date: Mon, 7 Dec 2020 16:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:13:51.224973
- Title: MERANet: Facial Micro-Expression Recognition using 3D Residual Attention
Network
- Title(参考訳): MERANet: 3次元残差注意ネットワークを用いた顔のマイクロ圧縮認識
- Authors: Viswanatha Reddy Gajjala, Sai Prasanna Teja Reddy, Snehasis Mukherjee,
Shiv Ram Dubey
- Abstract要約: 本研究では,MERANet を用いた顔認識モデルを提案する。
提案モデルは空間情報と時間情報の両方を包含する。
顔のマイクロ表現認識のための最先端技術と比較して優れた性能が観察される。
- 参考スコア(独自算出の注目度): 14.285700243381537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a facial micro-expression recognition model using 3D residual
attention network called MERANet. The proposed model takes advantage of
spatial-temporal attention and channel attention together, to learn deeper
fine-grained subtle features for classification of emotions. The proposed model
also encompasses both spatial and temporal information simultaneously using the
3D kernels and residual connections. Moreover, the channel features and
spatio-temporal features are re-calibrated using the channel and
spatio-temporal attentions, respectively in each residual module. The
experiments are conducted on benchmark facial micro-expression datasets. A
superior performance is observed as compared to the state-of-the-art for facial
micro-expression recognition.
- Abstract(参考訳): 本研究では,meranetと呼ばれる3次元残留注意ネットワークを用いた顔のマイクロ表現認識モデルを提案する。
提案モデルは,空間的-時間的注意とチャネル的注意を併用して,感情の分類においてより詳細な微妙な特徴を学習する。
提案モデルは,3次元カーネルと残差接続を用いた時空間情報と時間情報の両方を同時に包含する。
さらに,各残余モジュールにおいて,チャネル特徴と時空間特徴をそれぞれチャネルと時空間注意を用いて再校正する。
実験はベンチマーク顔面マイクロ表現データセットを用いて行われた。
顔のマイクロ圧縮認識の最先端技術と比較して優れた性能が観察される。
関連論文リスト
- Three-Stream Temporal-Shift Attention Network Based on Self-Knowledge Distillation for Micro-Expression Recognition [21.675660978188617]
ミクロな表現認識は、犯罪分析や心理療法など、多くの分野で重要である。
本稿では,SKD-TSTSANと呼ばれる自己知識蒸留に基づく3ストリーム時間シフトアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-25T13:22:22Z) - Micro-Expression Recognition Based on Attribute Information Embedding
and Cross-modal Contrastive Learning [22.525295392858293]
本稿では,属性情報埋め込みとクロスモーダルコントラスト学習に基づくマイクロ圧縮認識手法を提案する。
我々はCASME II と MMEW データベースで広範な実験を行い、精度はそれぞれ77.82% と 71.04% である。
論文 参考訳(メタデータ) (2022-05-29T12:28:10Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Short and Long Range Relation Based Spatio-Temporal Transformer for
Micro-Expression Recognition [61.374467942519374]
我々は,マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチである,新しいアテンポ的トランスフォーマーアーキテクチャを提案する。
空間パターンを学習する空間エンコーダと、時間的分析のための時間的次元分類と、ヘッドとを備える。
広範に使用されている3つの自発的マイクロ圧縮データセットに対する総合的な評価は,提案手法が一貫して芸術の状態を上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-10T22:10:31Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。