論文の概要: MMAD: Multi-label Micro-Action Detection in Videos
- arxiv url: http://arxiv.org/abs/2407.05311v1
- Date: Sun, 7 Jul 2024 09:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 20:17:13.059986
- Title: MMAD: Multi-label Micro-Action Detection in Videos
- Title(参考訳): MMAD:ビデオにおけるマルチラベルマイクロアクション検出
- Authors: Kun Li, Dan Guo, Pengyu Liu, Guoliang Chen, Meng Wang,
- Abstract要約: MMAD(Multi-label Micro-Action Detection)と呼ばれる新しいタスクを提案する。
MMADは、与えられたショートビデオ内のすべてのマイクロアクションを特定し、開始時間と終了時間を決定し、それらを分類する。
MMADタスクを支援するために,MMA-52(Multi-label Micro-Action-52)と呼ばれる新しいデータセットを導入する。
- 参考スコア(独自算出の注目度): 23.508563348306534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human body actions are an important form of non-verbal communication in social interactions. This paper focuses on a specific subset of body actions known as micro-actions, which are subtle, low-intensity body movements that provide a deeper understanding of inner human feelings. In real-world scenarios, human micro-actions often co-occur, with multiple micro-actions overlapping in time, such as simultaneous head and hand movements. However, current research primarily focuses on recognizing individual micro-actions while overlooking their co-occurring nature. To narrow this gap, we propose a new task named Multi-label Micro-Action Detection (MMAD), which involves identifying all micro-actions in a given short video, determining their start and end times, and categorizing them. Achieving this requires a model capable of accurately capturing both long-term and short-term action relationships to locate and classify multiple micro-actions. To support the MMAD task, we introduce a new dataset named Multi-label Micro-Action-52 (MMA-52), specifically designed to facilitate the detailed analysis and exploration of complex human micro-actions. The proposed MMA-52 dataset is available at: https://github.com/VUT-HFUT/Micro-Action.
- Abstract(参考訳): 人体行動は、社会的相互作用における非言語コミュニケーションの重要な形態である。
本稿では、内的人間の感情をより深く理解するための微妙で低強度な身体運動であるマイクロアクションとして知られる身体行動の特定のサブセットに焦点を当てる。
現実のシナリオでは、人間のマイクロアクションはしばしば共起し、複数のマイクロアクションが時間内に重複し、例えば頭と手の動きが同時に起こる。
しかしながら、現在の研究は、主に個々のマイクロアクションを認識しながら、その共起性を見越すことに焦点を当てている。
このギャップを狭めるために、所与のショートビデオ中のすべてのマイクロアクションを識別し、開始時間と終了時間を決定し、それらを分類する、Multi-label Micro-Action Detection (MMAD) というタスクを提案する。
これを達成するには、複数のマイクロアクションの特定と分類を行うために、長期と短期の両方のアクション関係を正確に把握できるモデルが必要である。
MMADタスクを支援するために,MMA-52(Multi-label Micro-Action-52)と呼ばれる新しいデータセットを導入する。
提案されたMMA-52データセットは、https://github.com/VUT-HFUT/Micro-Actionで利用可能である。
関連論文リスト
- Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition [48.21696443824074]
ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)と呼ばれる,マイクロ圧縮認識のための新しいフレームワークを提案する。
本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。
論文 参考訳(メタデータ) (2024-06-13T10:57:24Z) - Identity-free Artificial Emotional Intelligence via Micro-Gesture Understanding [21.94739567923136]
我々は、人体言語の特殊グループ、マイクロ・ジェスチャ(MG)に焦点を当てる。
MGは、意図的な行動ではなく、内的感情によって引き起こされる意図しない行動である。
本研究は,マイクロ・ジェスチャの微妙な空間的および短時間の時間的特性を考慮し,反復性を伴う様々な拡張戦略を探求し,より適切な拡張方法を決定する。
論文 参考訳(メタデータ) (2024-05-21T21:16:55Z) - Benchmarking Micro-action Recognition: Dataset, Methods, and Applications [26.090557725760934]
マイクロアクションは、低強度運動によって特徴づけられる非言語行動である。
本研究では,マイクロアクション52(MA-52)と呼ばれる新しいマイクロアクションデータセットを革新的に収集する。
MA-52は、ジェスチャー、上肢、下肢の動きを含む全身的な視点を提供する。
論文 参考訳(メタデータ) (2024-03-08T11:48:44Z) - "Filling the Blanks'': Identifying Micro-activities that Compose Complex
Human Activities of Daily Living [6.841115530838644]
AmicroNは、粗粒度のアノテートデータを利用して、マクロ活性を構成されたマイクロアクティビティに拡張することで、トップダウンのアプローチに適応する。
バックエンドでは、AmicroNはテキスト制御された変更点検出を使用して、複雑なADLのマイクロアクティビティ境界を探索する。
AmicroNがマイクロFtextsubscript1-score $>0.75$で両方のデータセットに対してマイクロアクティビティを識別できることを確認する。
論文 参考訳(メタデータ) (2023-06-22T18:14:54Z) - Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。
マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文 参考訳(メタデータ) (2022-12-22T03:47:14Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - Video-based Facial Micro-Expression Analysis: A Survey of Datasets,
Features and Algorithms [52.58031087639394]
マイクロ表現は不随意かつ過渡的な表情である。
嘘検出や犯罪検出など、幅広い応用において重要な情報を提供することができる。
マイクロ表現は過渡的で低強度であるため、検出と認識は困難であり、専門家の経験に大きく依存する。
論文 参考訳(メタデータ) (2022-01-30T05:14:13Z) - iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding
and Emotion Analysis [23.261770969903065]
iMiGUE(iMiGUE)は、マイクロジェスチャ理解・感情分析のためのアイデンティティフリービデオデータセットである。
iMiGUEは、内的感情によって引き起こされる意図しない行動(micro-gesture)に焦点を当てている。
論文 参考訳(メタデータ) (2021-07-01T08:15:14Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。