論文の概要: Benchmarking Micro-action Recognition: Dataset, Methods, and
Applications
- arxiv url: http://arxiv.org/abs/2403.05234v1
- Date: Fri, 8 Mar 2024 11:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:10:41.403426
- Title: Benchmarking Micro-action Recognition: Dataset, Methods, and
Applications
- Title(参考訳): マイクロアクション認識のベンチマーク:データセット、方法、および応用
- Authors: Dan Guo, Kun Li, Bin Hu, Yan Zhang, Meng Wang
- Abstract要約: マイクロアクションは、低強度運動によって特徴づけられる非言語行動である。
本研究では,マイクロアクション52(MA-52)と呼ばれる新しいマイクロアクションデータセットを革新的に収集する。
MA-52は、ジェスチャー、上肢、下肢の動きを含む全身的な視点を提供する。
- 参考スコア(独自算出の注目度): 27.991149296647723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-action is an imperceptible non-verbal behaviour characterised by
low-intensity movement. It offers insights into the feelings and intentions of
individuals and is important for human-oriented applications such as emotion
recognition and psychological assessment. However, the identification,
differentiation, and understanding of micro-actions pose challenges due to the
imperceptible and inaccessible nature of these subtle human behaviors in
everyday life. In this study, we innovatively collect a new micro-action
dataset designated as Micro-action-52 (MA-52), and propose a benchmark named
micro-action network (MANet) for micro-action recognition (MAR) task. Uniquely,
MA-52 provides the whole-body perspective including gestures, upper- and
lower-limb movements, attempting to reveal comprehensive micro-action cues. In
detail, MA-52 contains 52 micro-action categories along with seven body part
labels, and encompasses a full array of realistic and natural micro-actions,
accounting for 205 participants and 22,422 video instances collated from the
psychological interviews. Based on the proposed dataset, we assess MANet and
other nine prevalent action recognition methods. MANet incorporates squeeze-and
excitation (SE) and temporal shift module (TSM) into the ResNet architecture
for modeling the spatiotemporal characteristics of micro-actions. Then a
joint-embedding loss is designed for semantic matching between video and action
labels; the loss is used to better distinguish between visually similar yet
distinct micro-action categories. The extended application in emotion
recognition has demonstrated one of the important values of our proposed
dataset and method. In the future, further exploration of human behaviour,
emotion, and psychological assessment will be conducted in depth. The dataset
and source code are released at https://github.com/VUT-HFUT/Micro-Action.
- Abstract(参考訳): マイクロアクション(Micro-action)は、低強度運動を特徴とする非言語行動である。
個人の感情や意図に関する洞察を与え、感情認識や心理評価といった人間指向の応用に重要である。
しかし、マイクロアクションの識別、分化、理解は、日常生活におけるこれらの微妙な人間の行動の知覚不能で到達不能な性質のために問題となる。
本研究では、マイクロアクション52(MA-52)と呼ばれる新しいマイクロアクションデータセットを革新的に収集し、マイクロアクション認識(MAR)タスクのためのマイクロアクションネットワーク(MANet)というベンチマークを提案する。
MA-52は、ジェスチャー、上肢と下肢の動きを含む全身的な視点を提供し、包括的なマイクロアクションの手がかりを明らかにする。
詳しくは、ma-52には、52のマイクロアクションカテゴリと7つのボディパートラベルが含まれており、205人の参加者と22,422のビデオインスタンスが心理的インタビューから照合されている。
提案するデータセットに基づいて,マネットおよび他の9種類の行動認識手法を評価する。
MANetは、マイクロアクションの時空間特性をモデル化するためのResNetアーキテクチャに、SEとTSMを組み込んでいる。
次に、ビデオラベルとアクションラベルのセマンティックマッチングのためにジョイントエンベディングロスが設計され、その損失は視覚的に類似するが、異なるマイクロアクションカテゴリを区別するために使用される。
感情認識における拡張応用は,提案するデータセットと手法の重要な値の一つであることを示す。
将来的には、人間の行動、感情、心理的評価のさらなる探究が深く行われる。
データセットとソースコードはhttps://github.com/VUT-HFUT/Micro-Actionで公開されている。
関連論文リスト
- GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual
Affective Computing [76.22275262399378]
マルチモーダル言語モデル(MLM)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理、統合するために設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つインクリングの適用性を評価する。
GPT4は、顔表情認識性能が正確でないにもかかわらず、顔動作単位認識と微小表現検出において高い精度を有する。
論文 参考訳(メタデータ) (2024-03-09T13:56:25Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Hierarchical Compositional Representations for Few-shot Action
Recognition [51.288829293306335]
本稿では,新しい階層型合成表現(HCR)学習手法を提案する。
複雑なアクションを、慎重に設計された階層的クラスタリングによって、いくつかのサブアクションに分割する。
また、輸送問題において、サブアクション表現の観点から、ビデオサンプル間の類似度を測定するために、アースモーバー距離(Earth Mover's Distance)を採用した。
論文 参考訳(メタデータ) (2022-08-19T16:16:59Z) - Micro-Expression Recognition Based on Attribute Information Embedding
and Cross-modal Contrastive Learning [22.525295392858293]
本稿では,属性情報埋め込みとクロスモーダルコントラスト学習に基づくマイクロ圧縮認識手法を提案する。
我々はCASME II と MMEW データベースで広範な実験を行い、精度はそれぞれ77.82% と 71.04% である。
論文 参考訳(メタデータ) (2022-05-29T12:28:10Z) - Video-based Facial Micro-Expression Analysis: A Survey of Datasets,
Features and Algorithms [52.58031087639394]
マイクロ表現は不随意かつ過渡的な表情である。
嘘検出や犯罪検出など、幅広い応用において重要な情報を提供することができる。
マイクロ表現は過渡的で低強度であるため、検出と認識は困難であり、専門家の経験に大きく依存する。
論文 参考訳(メタデータ) (2022-01-30T05:14:13Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding
and Emotion Analysis [23.261770969903065]
iMiGUE(iMiGUE)は、マイクロジェスチャ理解・感情分析のためのアイデンティティフリービデオデータセットである。
iMiGUEは、内的感情によって引き起こされる意図しない行動(micro-gesture)に焦点を当てている。
論文 参考訳(メタデータ) (2021-07-01T08:15:14Z) - Facial Emotion Recognition with Noisy Multi-task Annotations [88.42023952684052]
ノイズの多いマルチタスクアノテーションを用いた顔の感情認識の新しい問題を提案する。
この新たな問題に対して,共同分布マッチングの観点からの定式化を提案する。
我々は,感情予測と共同分布学習を可能にする新しい手法を利用する。
論文 参考訳(メタデータ) (2020-10-19T20:39:37Z) - Micro-expression spotting: A new benchmark [74.69928316848866]
マイクロ表現(ME)は、人々が本当の感情を隠そうとしたり、感情を隠そうとするときに起こる、簡潔で不随意の表情である。
コンピュータビジョンの分野では、MEの研究はスポッティングと認識という2つの主要なタスクに分けられる。
本稿ではSMIC-Eデータベースの拡張,すなわちSMIC-E-Longデータベースを紹介する。
論文 参考訳(メタデータ) (2020-07-24T09:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。