論文の概要: MMAD: Multi-label Micro-Action Detection in Videos
- arxiv url: http://arxiv.org/abs/2407.05311v2
- Date: Sun, 30 Mar 2025 10:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.602482
- Title: MMAD: Multi-label Micro-Action Detection in Videos
- Title(参考訳): MMAD:ビデオにおけるマルチラベルマイクロアクション検出
- Authors: Kun Li, Pengyu Liu, Dan Guo, Fei Wang, Zhiliang Wu, Hehe Fan, Meng Wang,
- Abstract要約: 本稿では、微妙で低強度な身体運動であるマイクロアクションとして知られる身体動作のサブセットに焦点を当てる。
現実のシナリオでは、人間のマイクロアクションはしばしば時間的に共起し、複数のマイクロアクションが時間内に重複する。
本稿では,ビデオ中のすべてのマイクロアクションを識別する,MMAD(Multi-label Micro-Action Detection)というタスクを提案する。
- 参考スコア(独自算出の注目度): 37.02734647950794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human body actions are an important form of non-verbal communication in social interactions. This paper specifically focuses on a subset of body actions known as micro-actions, which are subtle, low-intensity body movements with promising applications in human emotion analysis. In real-world scenarios, human micro-actions often temporally co-occur, with multiple micro-actions overlapping in time, such as concurrent head and hand movements. However, current research primarily focuses on recognizing individual micro-actions while overlooking their co-occurring nature. To address this gap, we propose a new task named Multi-label Micro-Action Detection (MMAD), which involves identifying all micro-actions in a given short video, determining their start and end times, and categorizing them. Accomplishing this requires a model capable of accurately capturing both long-term and short-term action relationships to detect multiple overlapping micro-actions. To facilitate the MMAD task, we introduce a new dataset named Multi-label Micro-Action-52 (MMA-52) and propose a baseline method equipped with a dual-path spatial-temporal adapter to address the challenges of subtle visual change in MMAD. We hope that MMA-52 can stimulate research on micro-action analysis in videos and prompt the development of spatio-temporal modeling in human-centric video understanding. The proposed MMA-52 dataset is available at: https://github.com/VUT-HFUT/Micro-Action.
- Abstract(参考訳): 人体行動は、社会的相互作用における非言語コミュニケーションの重要な形態である。
本論文は、微妙で低強度な身体運動であるマイクロアクションとして知られる身体動作のサブセットに焦点を当て、人間の感情分析に有望な応用を期待する。
現実のシナリオでは、人間のマイクロアクションはしばしば時間的に共起し、複数のマイクロアクションが時間内に重複する。
しかしながら、現在の研究は、主に個々のマイクロアクションを認識しながら、その共起性を見越すことに焦点を当てている。
このギャップに対処するため,提案するMMAD(Multi-label Micro-Action Detection)というタスクを提案する。
これに対応するには、複数の重複するマイクロアクションを検出するために、長期と短期の両方のアクション関係を正確にキャプチャできるモデルが必要である。
MMAD処理を容易にするために,MMA-52 (Multi-label Micro-Action-52) という新しいデータセットを導入し,MMADの微妙な視覚的変化に対処するための2経路空間時空間アダプタを備えたベースライン手法を提案する。
我々は、MMA-52がビデオにおけるマイクロアクション分析の研究を刺激し、人中心ビデオ理解における時空間モデリングの開発を促進することを願っている。
提案されたMMA-52データセットは、https://github.com/VUT-HFUT/Micro-Actionで利用可能である。
関連論文リスト
- Grounding-MD: Grounded Video-language Pre-training for Open-World Moment Detection [67.70328796057466]
Grounding-MDは、オープンワールドのモーメント検出に適した、革新的なビデオ言語事前学習フレームワークである。
我々のフレームワークは、構造化されたプロンプト機構を通じて、任意の数のオープンな自然言語クエリを組み込む。
Grounding-MDは特異なセマンティック表現学習能力を示し、多種多様な複雑なクエリ条件を効果的に処理する。
論文 参考訳(メタデータ) (2025-04-20T09:54:25Z) - MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues [0.0]
本稿では,局所的な顔マイクロ圧縮のダイナミクスに注意を向け,時間に敏感なマルチモーダル言語モデル(MLLM)を提案する。
本モデルでは,(1)グローバルなフレームレベル・タイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴とを融合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成し,それらを組み合わせてマルチスケールおよび文脈的依存関係をキャプチャする発話認識ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。
論文 参考訳(メタデータ) (2024-07-23T15:05:55Z) - Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition [48.21696443824074]
ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)と呼ばれる,マイクロ圧縮認識のための新しいフレームワークを提案する。
本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。
論文 参考訳(メタデータ) (2024-06-13T10:57:24Z) - Identity-free Artificial Emotional Intelligence via Micro-Gesture Understanding [21.94739567923136]
我々は、人体言語の特殊グループ、マイクロ・ジェスチャ(MG)に焦点を当てる。
MGは、意図的な行動ではなく、内的感情によって引き起こされる意図しない行動である。
本研究は,マイクロ・ジェスチャの微妙な空間的および短時間の時間的特性を考慮し,反復性を伴う様々な拡張戦略を探求し,より適切な拡張方法を決定する。
論文 参考訳(メタデータ) (2024-05-21T21:16:55Z) - Benchmarking Micro-action Recognition: Dataset, Methods, and Applications [26.090557725760934]
マイクロアクションは、低強度運動によって特徴づけられる非言語行動である。
本研究では,マイクロアクション52(MA-52)と呼ばれる新しいマイクロアクションデータセットを革新的に収集する。
MA-52は、ジェスチャー、上肢、下肢の動きを含む全身的な視点を提供する。
論文 参考訳(メタデータ) (2024-03-08T11:48:44Z) - "Filling the Blanks'': Identifying Micro-activities that Compose Complex
Human Activities of Daily Living [6.841115530838644]
AmicroNは、粗粒度のアノテートデータを利用して、マクロ活性を構成されたマイクロアクティビティに拡張することで、トップダウンのアプローチに適応する。
バックエンドでは、AmicroNはテキスト制御された変更点検出を使用して、複雑なADLのマイクロアクティビティ境界を探索する。
AmicroNがマイクロFtextsubscript1-score $>0.75$で両方のデータセットに対してマイクロアクティビティを識別できることを確認する。
論文 参考訳(メタデータ) (2023-06-22T18:14:54Z) - Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。
マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文 参考訳(メタデータ) (2022-12-22T03:47:14Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - Video-based Facial Micro-Expression Analysis: A Survey of Datasets,
Features and Algorithms [52.58031087639394]
マイクロ表現は不随意かつ過渡的な表情である。
嘘検出や犯罪検出など、幅広い応用において重要な情報を提供することができる。
マイクロ表現は過渡的で低強度であるため、検出と認識は困難であり、専門家の経験に大きく依存する。
論文 参考訳(メタデータ) (2022-01-30T05:14:13Z) - Short and Long Range Relation Based Spatio-Temporal Transformer for
Micro-Expression Recognition [61.374467942519374]
我々は,マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチである,新しいアテンポ的トランスフォーマーアーキテクチャを提案する。
空間パターンを学習する空間エンコーダと、時間的分析のための時間的次元分類と、ヘッドとを備える。
広範に使用されている3つの自発的マイクロ圧縮データセットに対する総合的な評価は,提案手法が一貫して芸術の状態を上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-10T22:10:31Z) - iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding
and Emotion Analysis [23.261770969903065]
iMiGUE(iMiGUE)は、マイクロジェスチャ理解・感情分析のためのアイデンティティフリービデオデータセットである。
iMiGUEは、内的感情によって引き起こされる意図しない行動(micro-gesture)に焦点を当てている。
論文 参考訳(メタデータ) (2021-07-01T08:15:14Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。