論文の概要: Synergistic Spotting and Recognition of Micro-Expression via Temporal State Transition
- arxiv url: http://arxiv.org/abs/2409.09707v1
- Date: Sun, 15 Sep 2024 12:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 19:38:20.995977
- Title: Synergistic Spotting and Recognition of Micro-Expression via Temporal State Transition
- Title(参考訳): 時間遷移による微小表現の相乗的スポッティングと認識
- Authors: Bochao Zou, Zizheng Guo, Wenfeng Qin, Xin Li, Kangsheng Wang, Huimin Ma,
- Abstract要約: マイクロ表現の分析には、一般的に2つの主要なタスクがある: 長いビデオでマイクロ表現間隔を見つけることと、これらの間隔に関連する感情を認識することである。
従来のディープラーニング手法は主にスライディングウインドウを用いた分類ネットワークに依存していた。
本稿では、従来のウィンドウレベルの分類をビデオレベルの回帰に置き換える、状態空間モデルに基づく新しい時間状態遷移アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 12.087992699513213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-expressions are involuntary facial movements that cannot be consciously controlled, conveying subtle cues with substantial real-world applications. The analysis of micro-expressions generally involves two main tasks: spotting micro-expression intervals in long videos and recognizing the emotions associated with these intervals. Previous deep learning methods have primarily relied on classification networks utilizing sliding windows. However, fixed window sizes and window-level hard classification introduce numerous constraints. Additionally, these methods have not fully exploited the potential of complementary pathways for spotting and recognition. In this paper, we present a novel temporal state transition architecture grounded in the state space model, which replaces conventional window-level classification with video-level regression. Furthermore, by leveraging the inherent connections between spotting and recognition tasks, we propose a synergistic strategy that enhances overall analysis performance. Extensive experiments demonstrate that our method achieves state-of-the-art performance. The codes and pre-trained models are available at https://github.com/zizheng-guo/ME-TST.
- Abstract(参考訳): マイクロ表現は意識的に制御できない不随意の顔の動きであり、現実の応用と微妙な手がかりを伝達する。
マイクロ表現の分析には、一般的に2つの主要なタスクがある: 長いビデオでマイクロ表現間隔を見つけることと、これらの間隔に関連する感情を認識することである。
従来のディープラーニング手法は主にスライディングウインドウを用いた分類ネットワークに依存していた。
しかし、固定ウィンドウサイズとウィンドウレベルのハードな分類には多くの制約が伴う。
さらに、これらの手法はスポッティングや認識のための補完経路の可能性を十分に活用していない。
本稿では、従来のウィンドウレベルの分類をビデオレベルの回帰に置き換えた、状態空間モデルに基づく新しい時間状態遷移アーキテクチャを提案する。
さらに,スポッティングと認識タスクの関連性を生かして,総合解析性能を高めるための相乗的戦略を提案する。
大規模な実験により,本手法が最先端の性能を達成できることが実証された。
コードと事前訓練されたモデルはhttps://github.com/zizheng-guo/ME-TSTで公開されている。
関連論文リスト
- Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition [48.21696443824074]
ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)と呼ばれる,マイクロ圧縮認識のための新しいフレームワークを提案する。
本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。
論文 参考訳(メタデータ) (2024-06-13T10:57:24Z) - Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Short and Long Range Relation Based Spatio-Temporal Transformer for
Micro-Expression Recognition [61.374467942519374]
我々は,マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチである,新しいアテンポ的トランスフォーマーアーキテクチャを提案する。
空間パターンを学習する空間エンコーダと、時間的分析のための時間的次元分類と、ヘッドとを備える。
広範に使用されている3つの自発的マイクロ圧縮データセットに対する総合的な評価は,提案手法が一貫して芸術の状態を上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-10T22:10:31Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Recognizing Micro-Expression in Video Clip with Adaptive Key-Frame
Mining [18.34213657996624]
マイクロ・エクスプレッションでは、顔の動きは過渡的であり、時間を通して緩やかに局所化される。
適応鍵フレームマイニングネットワーク(AKMNet)と呼ばれる新しいエンドツーエンドディープラーニングアーキテクチャを提案する。
AKMNetは、自己学習した局所鍵フレームの空間的特徴と、その大域的時間的ダイナミクスを組み合わせることで、差別的時間的表現を学習することができる。
論文 参考訳(メタデータ) (2020-09-19T07:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。