論文の概要: Hierarchical Space-Time Attention for Micro-Expression Recognition
- arxiv url: http://arxiv.org/abs/2405.03202v1
- Date: Mon, 6 May 2024 07:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:35:25.584027
- Title: Hierarchical Space-Time Attention for Micro-Expression Recognition
- Title(参考訳): マイクロ圧縮認識のための階層的空間時間アテンション
- Authors: Haihong Hao, Shuo Wang, Huixia Ben, Yanbin Hao, Yansong Wang, Weiwei Wang,
- Abstract要約: Micro-Expression Recognition (MER) は、マイクロ・エプレッション(ME)ビデオクリップから顔の動きの短さと微妙さを認識し、実際の感情を明らかにすることを目的としている。
最近のMER法は、主にMEビデオクリップからの特別なフレームを利用するか、これらの特別なフレームから光の流れを抽出するのみである。
この問題を解決するために,階層的時空間注意(HSTA)を提案する。
- 参考スコア(独自算出の注目度): 13.85240903497193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-expression recognition (MER) aims to recognize the short and subtle facial movements from the Micro-expression (ME) video clips, which reveal real emotions. Recent MER methods mostly only utilize special frames from ME video clips or extract optical flow from these special frames. However, they neglect the relationship between movements and space-time, while facial cues are hidden within these relationships. To solve this issue, we propose the Hierarchical Space-Time Attention (HSTA). Specifically, we first process ME video frames and special frames or data parallelly by our cascaded Unimodal Space-Time Attention (USTA) to establish connections between subtle facial movements and specific facial areas. Then, we design Crossmodal Space-Time Attention (CSTA) to achieve a higher-quality fusion for crossmodal data. Finally, we hierarchically integrate USTA and CSTA to grasp the deeper facial cues. Our model emphasizes temporal modeling without neglecting the processing of special data, and it fuses the contents in different modalities while maintaining their respective uniqueness. Extensive experiments on the four benchmarks show the effectiveness of our proposed HSTA. Specifically, compared with the latest method on the CASME3 dataset, it achieves about 3% score improvement in seven-category classification.
- Abstract(参考訳): Micro-Expression Recognition (MER) は、マイクロ・エプレッション(ME)ビデオクリップから顔の動きの短さと微妙さを認識し、実際の感情を明らかにすることを目的としている。
最近のMER法は、主にMEビデオクリップからの特別なフレームを利用するか、これらの特別なフレームから光の流れを抽出するのみである。
しかし、彼らは動きと時空の関係を無視し、顔の手がかりはこれらの関係の中に隠されている。
この問題を解決するために,階層的時空間注意(Hierarchical Space-Time Attention, HSTA)を提案する。
具体的には、まず、ケースド・ユニモーダル・スペース・タイム・アテンション(USTA)によって、MEビデオフレームと特別なフレームまたはデータを並列に処理し、微妙な顔の動きと特定の顔領域との接続を確立する。
次に、クロスモーダルデータに対する高品質な融合を実現するために、CSTA(Crossmodal Space-Time Attention)を設計する。
最後に,USTAとCSTAを階層的に統合し,より深い顔の手がかりを把握した。
本モデルでは,特殊データの処理を無視することなく時間的モデリングを重要視し,それぞれの独自性を保ちながら,異なるモードでコンテンツを融合する。
4つのベンチマークの大規模な実験により,提案したHSTAの有効性が示された。
具体的には、CASME3データセットの最新手法と比較して、7カテゴリ分類で約3%のスコア改善を実現している。
関連論文リスト
- Spatio-temporal Transformers for Action Unit Classification with Event Cameras [28.98336123799572]
本稿では,RGBビデオとイベントストリームからなる時間同期型マルチモーダル顔データセットであるFACEMORPHICを提案する。
映像を手動でアノテートすることなく、時間同期が効果的なニューロモルフィック顔分析を可能にすることを示す。
論文 参考訳(メタデータ) (2024-10-29T11:23:09Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Micro-Expression Recognition by Motion Feature Extraction based on Pre-training [6.015288149235598]
マイクロ圧縮認識タスクのための新しい動き抽出戦略(MoExt)を提案する。
MoExtでは、まず、開始フレームと頂点フレームから形状特徴とテクスチャ特徴を分離して抽出し、その後、両方のフレームの形状特徴に基づいてMEに関連する運動特徴を抽出する。
提案手法の有効性を3つの一般的なデータセットで検証した。
論文 参考訳(メタデータ) (2024-07-10T03:51:34Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - MERANet: Facial Micro-Expression Recognition using 3D Residual Attention
Network [14.285700243381537]
本研究では,MERANet を用いた顔認識モデルを提案する。
提案モデルは空間情報と時間情報の両方を包含する。
顔のマイクロ表現認識のための最先端技術と比較して優れた性能が観察される。
論文 参考訳(メタデータ) (2020-12-07T16:41:42Z) - Dynamic and Static Context-aware LSTM for Multi-agent Motion Prediction [40.20696709103593]
本稿では,動的および静的な文脈認識型動作予測器(DSCMP)の新たな機構であるtextiti.e.を設計する。
豊富な情報をLong-Short-term-Memory (LSTM)に統合する。
エージェント間の動的相互作用を、空間的位置と時間的コヒーレンスの両方を学ぶことによってモデル化する。
潜在変数を推論することでシーンのコンテキストをキャプチャし、意味のあるセマンティックなシーンレイアウトを持つマルチモーダルな予測を可能にする。
論文 参考訳(メタデータ) (2020-08-03T11:03:57Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。