論文の概要: Recognizing Micro-Expression in Video Clip with Adaptive Key-Frame
Mining
- arxiv url: http://arxiv.org/abs/2009.09179v3
- Date: Mon, 15 Mar 2021 07:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 21:29:22.319138
- Title: Recognizing Micro-Expression in Video Clip with Adaptive Key-Frame
Mining
- Title(参考訳): 適応型キーフレームマイニングによるビデオクリップのマイクロ表現認識
- Authors: Min Peng, Chongyang Wang, Yuan Gao, Tao Bi, Tong Chen, Yu Shi,
Xiang-Dong Zhou
- Abstract要約: マイクロ・エクスプレッションでは、顔の動きは過渡的であり、時間を通して緩やかに局所化される。
適応鍵フレームマイニングネットワーク(AKMNet)と呼ばれる新しいエンドツーエンドディープラーニングアーキテクチャを提案する。
AKMNetは、自己学習した局所鍵フレームの空間的特徴と、その大域的時間的ダイナミクスを組み合わせることで、差別的時間的表現を学習することができる。
- 参考スコア(独自算出の注目度): 18.34213657996624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a spontaneous expression of emotion on face, micro-expression reveals the
underlying emotion that cannot be controlled by human. In micro-expression,
facial movement is transient and sparsely localized through time. However, the
existing representation based on various deep learning techniques learned from
a full video clip is usually redundant. In addition, methods utilizing the
single apex frame of each video clip require expert annotations and sacrifice
the temporal dynamics. To simultaneously localize and recognize such fleeting
facial movements, we propose a novel end-to-end deep learning architecture,
referred to as adaptive key-frame mining network (AKMNet). Operating on the
video clip of micro-expression, AKMNet is able to learn discriminative
spatio-temporal representation by combining spatial features of self-learned
local key frames and their global-temporal dynamics. Theoretical analysis and
empirical evaluation show that the proposed approach improved recognition
accuracy in comparison with state-of-the-art methods on multiple benchmark
datasets.
- Abstract(参考訳): 顔の感情の自発的な表現として、マイクロ表現は人間では制御できない基礎的な感情を明らかにする。
微小表現では、顔の動きは過渡的であり、時間を通じて緩やかに局所化される。
しかし、フルビデオクリップから学習した様々なディープラーニング技術に基づく既存の表現は通常冗長である。
さらに、各ビデオクリップの1つの頂点フレームを利用する方法には、専門家の注釈と時間的ダイナミクスの犠牲が必要となる。
このような顔の動きを同時にローカライズし認識するために,適応鍵フレームマイニングネットワーク(AKMNet)と呼ばれる,エンドツーエンドのディープラーニングアーキテクチャを提案する。
akmnetは、マイクロ表現の動画クリップ上で動作し、自己学習したローカルキーフレームの空間的特徴とグローバルな時間的ダイナミクスを組み合わせることで、識別的時空間表現を学習することができる。
理論的解析と経験的評価により,提案手法は複数のベンチマークデータセットの最先端手法と比較して認識精度を向上した。
関連論文リスト
- Synergistic Spotting and Recognition of Micro-Expression via Temporal State Transition [12.087992699513213]
マイクロ表現の分析には、一般的に2つの主要なタスクがある: 長いビデオでマイクロ表現間隔を見つけることと、これらの間隔に関連する感情を認識することである。
従来のディープラーニング手法は主にスライディングウインドウを用いた分類ネットワークに依存していた。
本稿では、従来のウィンドウレベルの分類をビデオレベルの回帰に置き換える、状態空間モデルに基づく新しい時間状態遷移アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-15T12:14:19Z) - MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues [0.0]
本稿では,局所的な顔マイクロ圧縮のダイナミクスに注意を向け,時間に敏感なマルチモーダル言語モデル(MLLM)を提案する。
本モデルでは,(1)グローバルなフレームレベル・タイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴とを融合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成し,それらを組み合わせてマルチスケールおよび文脈的依存関係をキャプチャする発話認識ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。
論文 参考訳(メタデータ) (2024-07-23T15:05:55Z) - Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition [48.21696443824074]
ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)と呼ばれる,マイクロ圧縮認識のための新しいフレームワークを提案する。
本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。
論文 参考訳(メタデータ) (2024-06-13T10:57:24Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Short and Long Range Relation Based Spatio-Temporal Transformer for
Micro-Expression Recognition [61.374467942519374]
我々は,マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチである,新しいアテンポ的トランスフォーマーアーキテクチャを提案する。
空間パターンを学習する空間エンコーダと、時間的分析のための時間的次元分類と、ヘッドとを備える。
広範に使用されている3つの自発的マイクロ圧縮データセットに対する総合的な評価は,提案手法が一貫して芸術の状態を上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-10T22:10:31Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。