Fugu-MT 論文翻訳(概要): Benchmarking Micro-action Recognition: Dataset, Methods, and Applications

論文の概要: Benchmarking Micro-action Recognition: Dataset, Methods, and Applications

arxiv url: http://arxiv.org/abs/2403.05234v1
Date: Fri, 8 Mar 2024 11:48:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 20:10:41.403426
Title: Benchmarking Micro-action Recognition: Dataset, Methods, and Applications
Title（参考訳）: マイクロアクション認識のベンチマーク:データセット、方法、および応用
Authors: Dan Guo, Kun Li, Bin Hu, Yan Zhang, Meng Wang
Abstract要約: マイクロアクションは、低強度運動によって特徴づけられる非言語行動である。本研究では,マイクロアクション52(MA-52)と呼ばれる新しいマイクロアクションデータセットを革新的に収集する。 MA-52は、ジェスチャー、上肢、下肢の動きを含む全身的な視点を提供する。
参考スコア（独自算出の注目度）: 27.991149296647723
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Micro-action is an imperceptible non-verbal behaviour characterised by low-intensity movement. It offers insights into the feelings and intentions of individuals and is important for human-oriented applications such as emotion recognition and psychological assessment. However, the identification, differentiation, and understanding of micro-actions pose challenges due to the imperceptible and inaccessible nature of these subtle human behaviors in everyday life. In this study, we innovatively collect a new micro-action dataset designated as Micro-action-52 (MA-52), and propose a benchmark named micro-action network (MANet) for micro-action recognition (MAR) task. Uniquely, MA-52 provides the whole-body perspective including gestures, upper- and lower-limb movements, attempting to reveal comprehensive micro-action cues. In detail, MA-52 contains 52 micro-action categories along with seven body part labels, and encompasses a full array of realistic and natural micro-actions, accounting for 205 participants and 22,422 video instances collated from the psychological interviews. Based on the proposed dataset, we assess MANet and other nine prevalent action recognition methods. MANet incorporates squeeze-and excitation (SE) and temporal shift module (TSM) into the ResNet architecture for modeling the spatiotemporal characteristics of micro-actions. Then a joint-embedding loss is designed for semantic matching between video and action labels; the loss is used to better distinguish between visually similar yet distinct micro-action categories. The extended application in emotion recognition has demonstrated one of the important values of our proposed dataset and method. In the future, further exploration of human behaviour, emotion, and psychological assessment will be conducted in depth. The dataset and source code are released at https://github.com/VUT-HFUT/Micro-Action.
Abstract（参考訳）: マイクロアクション(Micro-action)は、低強度運動を特徴とする非言語行動である。個人の感情や意図に関する洞察を与え、感情認識や心理評価といった人間指向の応用に重要である。しかし、マイクロアクションの識別、分化、理解は、日常生活におけるこれらの微妙な人間の行動の知覚不能で到達不能な性質のために問題となる。本研究では、マイクロアクション52(MA-52)と呼ばれる新しいマイクロアクションデータセットを革新的に収集し、マイクロアクション認識(MAR)タスクのためのマイクロアクションネットワーク(MANet)というベンチマークを提案する。 MA-52は、ジェスチャー、上肢と下肢の動きを含む全身的な視点を提供し、包括的なマイクロアクションの手がかりを明らかにする。詳しくは、ma-52には、52のマイクロアクションカテゴリと7つのボディパートラベルが含まれており、205人の参加者と22,422のビデオインスタンスが心理的インタビューから照合されている。提案するデータセットに基づいて,マネットおよび他の9種類の行動認識手法を評価する。 MANetは、マイクロアクションの時空間特性をモデル化するためのResNetアーキテクチャに、SEとTSMを組み込んでいる。次に、ビデオラベルとアクションラベルのセマンティックマッチングのためにジョイントエンベディングロスが設計され、その損失は視覚的に類似するが、異なるマイクロアクションカテゴリを区別するために使用される。感情認識における拡張応用は,提案するデータセットと手法の重要な値の一つであることを示す。将来的には、人間の行動、感情、心理的評価のさらなる探究が深く行われる。データセットとソースコードはhttps://github.com/VUT-HFUT/Micro-Actionで公開されている。

関連論文リスト

Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。 N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文参考訳（メタデータ） (2025-07-30T09:48:34Z)
MMAD: Multi-label Micro-Action Detection in Videos [23.508563348306534]
MMAD(Multi-label Micro-Action Detection)と呼ばれる新しいタスクを提案する。 MMADは、与えられたショートビデオ内のすべてのマイクロアクションを特定し、開始時間と終了時間を決定し、それらを分類する。 MMADタスクを支援するために,MMA-52(Multi-label Micro-Action-52)と呼ばれる新しいデータセットを導入する。
論文参考訳（メタデータ） (2024-07-07T09:45:14Z)
Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文参考訳（メタデータ） (2024-06-17T03:01:22Z)
Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition [48.21696443824074]
ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)と呼ばれる,マイクロ圧縮認識のための新しいフレームワークを提案する。本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。
論文参考訳（メタデータ） (2024-06-13T10:57:24Z)
Identity-free Artificial Emotional Intelligence via Micro-Gesture Understanding [21.94739567923136]
我々は、人体言語の特殊グループ、マイクロ・ジェスチャ(MG)に焦点を当てる。 MGは、意図的な行動ではなく、内的感情によって引き起こされる意図しない行動である。本研究は,マイクロ・ジェスチャの微妙な空間的および短時間の時間的特性を考慮し,反復性を伴う様々な拡張戦略を探求し,より適切な拡張方法を決定する。
論文参考訳（メタデータ） (2024-05-21T21:16:55Z)
GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing [74.68232970965595]
MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
論文参考訳（メタデータ） (2024-03-09T13:56:25Z)
Hierarchical Compositional Representations for Few-shot Action Recognition [51.288829293306335]
本稿では,新しい階層型合成表現(HCR)学習手法を提案する。複雑なアクションを、慎重に設計された階層的クラスタリングによって、いくつかのサブアクションに分割する。また、輸送問題において、サブアクション表現の観点から、ビデオサンプル間の類似度を測定するために、アースモーバー距離(Earth Mover's Distance)を採用した。
論文参考訳（メタデータ） (2022-08-19T16:16:59Z)
Micro-Expression Recognition Based on Attribute Information Embedding and Cross-modal Contrastive Learning [22.525295392858293]
本稿では,属性情報埋め込みとクロスモーダルコントラスト学習に基づくマイクロ圧縮認識手法を提案する。我々はCASME II と MMEW データベースで広範な実験を行い、精度はそれぞれ77.82% と 71.04% である。
論文参考訳（メタデータ） (2022-05-29T12:28:10Z)
Video-based Facial Micro-Expression Analysis: A Survey of Datasets, Features and Algorithms [52.58031087639394]
マイクロ表現は不随意かつ過渡的な表情である。嘘検出や犯罪検出など、幅広い応用において重要な情報を提供することができる。マイクロ表現は過渡的で低強度であるため、検出と認識は困難であり、専門家の経験に大きく依存する。
論文参考訳（メタデータ） (2022-01-30T05:14:13Z)
iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding and Emotion Analysis [23.261770969903065]
iMiGUE(iMiGUE)は、マイクロジェスチャ理解・感情分析のためのアイデンティティフリービデオデータセットである。 iMiGUEは、内的感情によって引き起こされる意図しない行動(micro-gesture)に焦点を当てている。
論文参考訳（メタデータ） (2021-07-01T08:15:14Z)
Micro-expression spotting: A new benchmark [74.69928316848866]
マイクロ表現(ME)は、人々が本当の感情を隠そうとしたり、感情を隠そうとするときに起こる、簡潔で不随意の表情である。コンピュータビジョンの分野では、MEの研究はスポッティングと認識という2つの主要なタスクに分けられる。本稿ではSMIC-Eデータベースの拡張,すなわちSMIC-E-Longデータベースを紹介する。
論文参考訳（メタデータ） (2020-07-24T09:18:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。