Fugu-MT 論文翻訳(概要): MMAD: Multi-label Micro-Action Detection in Videos

論文の概要: MMAD: Multi-label Micro-Action Detection in Videos

arxiv url: http://arxiv.org/abs/2407.05311v1
Date: Sun, 7 Jul 2024 09:45:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 20:17:13.059986
Title: MMAD: Multi-label Micro-Action Detection in Videos
Title（参考訳）: MMAD:ビデオにおけるマルチラベルマイクロアクション検出
Authors: Kun Li, Dan Guo, Pengyu Liu, Guoliang Chen, Meng Wang,
Abstract要約: MMAD(Multi-label Micro-Action Detection)と呼ばれる新しいタスクを提案する。 MMADは、与えられたショートビデオ内のすべてのマイクロアクションを特定し、開始時間と終了時間を決定し、それらを分類する。 MMADタスクを支援するために,MMA-52(Multi-label Micro-Action-52)と呼ばれる新しいデータセットを導入する。
参考スコア（独自算出の注目度）: 23.508563348306534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human body actions are an important form of non-verbal communication in social interactions. This paper focuses on a specific subset of body actions known as micro-actions, which are subtle, low-intensity body movements that provide a deeper understanding of inner human feelings. In real-world scenarios, human micro-actions often co-occur, with multiple micro-actions overlapping in time, such as simultaneous head and hand movements. However, current research primarily focuses on recognizing individual micro-actions while overlooking their co-occurring nature. To narrow this gap, we propose a new task named Multi-label Micro-Action Detection (MMAD), which involves identifying all micro-actions in a given short video, determining their start and end times, and categorizing them. Achieving this requires a model capable of accurately capturing both long-term and short-term action relationships to locate and classify multiple micro-actions. To support the MMAD task, we introduce a new dataset named Multi-label Micro-Action-52 (MMA-52), specifically designed to facilitate the detailed analysis and exploration of complex human micro-actions. The proposed MMA-52 dataset is available at: https://github.com/VUT-HFUT/Micro-Action.
Abstract（参考訳）: 人体行動は、社会的相互作用における非言語コミュニケーションの重要な形態である。本稿では、内的人間の感情をより深く理解するための微妙で低強度な身体運動であるマイクロアクションとして知られる身体行動の特定のサブセットに焦点を当てる。現実のシナリオでは、人間のマイクロアクションはしばしば共起し、複数のマイクロアクションが時間内に重複し、例えば頭と手の動きが同時に起こる。しかしながら、現在の研究は、主に個々のマイクロアクションを認識しながら、その共起性を見越すことに焦点を当てている。このギャップを狭めるために、所与のショートビデオ中のすべてのマイクロアクションを識別し、開始時間と終了時間を決定し、それらを分類する、Multi-label Micro-Action Detection (MMAD) というタスクを提案する。これを達成するには、複数のマイクロアクションの特定と分類を行うために、長期と短期の両方のアクション関係を正確に把握できるモデルが必要である。 MMADタスクを支援するために,MMA-52(Multi-label Micro-Action-52)と呼ばれる新しいデータセットを導入する。提案されたMMA-52データセットは、https://github.com/VUT-HFUT/Micro-Actionで利用可能である。

関連論文リスト

MEGC2025: Micro-Expression Grand Challenge on Spot Then Recognize and Visual Question Answering [55.30507585676142]
顔小表情(英: Facial micro-Expression、ME)は、感情を経験するときに自然に発生する顔の不随意運動である。近年、ME認識、スポッティング、生成の領域でかなりの進歩を遂げている。 MEグランドチャレンジ(MEGC)2025では、これら研究の方向性を反映した2つのタスクが導入されている。
論文参考訳（メタデータ） (2025-06-18T09:29:51Z)
Grounding-MD: Grounded Video-language Pre-training for Open-World Moment Detection [67.70328796057466]
Grounding-MDは、オープンワールドのモーメント検出に適した、革新的なビデオ言語事前学習フレームワークである。我々のフレームワークは、構造化されたプロンプト機構を通じて、任意の数のオープンな自然言語クエリを組み込む。 Grounding-MDは特異なセマンティック表現学習能力を示し、多種多様な複雑なクエリ条件を効果的に処理する。
論文参考訳（メタデータ） (2025-04-20T09:54:25Z)
MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues [0.0]
本稿では,局所的な顔マイクロ圧縮のダイナミクスに注意を向け,時間に敏感なマルチモーダル言語モデル(MLLM)を提案する。本モデルでは,(1)グローバルなフレームレベル・タイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴とを融合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成し,それらを組み合わせてマルチスケールおよび文脈的依存関係をキャプチャする発話認識ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。
論文参考訳（メタデータ） (2024-07-23T15:05:55Z)
Three-Stream Temporal-Shift Attention Network Based on Self-Knowledge Distillation for Micro-Expression Recognition [21.675660978188617]
ミクロな表現認識は、犯罪分析や心理療法など、多くの分野で重要である。本稿では,自己知識蒸留に基づく3ストリーム時間シフトアテンションネットワークを提案する。
論文参考訳（メタデータ） (2024-06-25T13:22:22Z)
Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition [48.21696443824074]
ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)と呼ばれる,マイクロ圧縮認識のための新しいフレームワークを提案する。本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。
論文参考訳（メタデータ） (2024-06-13T10:57:24Z)
Identity-free Artificial Emotional Intelligence via Micro-Gesture Understanding [21.94739567923136]
我々は、人体言語の特殊グループ、マイクロ・ジェスチャ(MG)に焦点を当てる。 MGは、意図的な行動ではなく、内的感情によって引き起こされる意図しない行動である。本研究は,マイクロ・ジェスチャの微妙な空間的および短時間の時間的特性を考慮し,反復性を伴う様々な拡張戦略を探求し,より適切な拡張方法を決定する。
論文参考訳（メタデータ） (2024-05-21T21:16:55Z)
Benchmarking Micro-action Recognition: Dataset, Methods, and Applications [26.090557725760934]
マイクロアクションは、低強度運動によって特徴づけられる非言語行動である。本研究では,マイクロアクション52(MA-52)と呼ばれる新しいマイクロアクションデータセットを革新的に収集する。 MA-52は、ジェスチャー、上肢、下肢の動きを含む全身的な視点を提供する。
論文参考訳（メタデータ） (2024-03-08T11:48:44Z)
"Filling the Blanks'': Identifying Micro-activities that Compose Complex Human Activities of Daily Living [6.841115530838644]
AmicroNは、粗粒度のアノテートデータを利用して、マクロ活性を構成されたマイクロアクティビティに拡張することで、トップダウンのアプローチに適応する。バックエンドでは、AmicroNはテキスト制御された変更点検出を使用して、複雑なADLのマイクロアクティビティ境界を探索する。 AmicroNがマイクロFtextsubscript1-score $>0.75$で両方のデータセットに対してマイクロアクティビティを識別できることを確認する。
論文参考訳（メタデータ） (2023-06-22T18:14:54Z)
Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文参考訳（メタデータ） (2022-12-22T03:47:14Z)
Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文参考訳（メタデータ） (2022-04-17T00:42:14Z)
Video-based Facial Micro-Expression Analysis: A Survey of Datasets, Features and Algorithms [52.58031087639394]
マイクロ表現は不随意かつ過渡的な表情である。嘘検出や犯罪検出など、幅広い応用において重要な情報を提供することができる。マイクロ表現は過渡的で低強度であるため、検出と認識は困難であり、専門家の経験に大きく依存する。
論文参考訳（メタデータ） (2022-01-30T05:14:13Z)
Short and Long Range Relation Based Spatio-Temporal Transformer for Micro-Expression Recognition [61.374467942519374]
我々は,マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチである,新しいアテンポ的トランスフォーマーアーキテクチャを提案する。空間パターンを学習する空間エンコーダと、時間的分析のための時間的次元分類と、ヘッドとを備える。広範に使用されている3つの自発的マイクロ圧縮データセットに対する総合的な評価は,提案手法が一貫して芸術の状態を上回っていることを示している。
論文参考訳（メタデータ） (2021-12-10T22:10:31Z)
iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding and Emotion Analysis [23.261770969903065]
iMiGUE(iMiGUE)は、マイクロジェスチャ理解・感情分析のためのアイデンティティフリービデオデータセットである。 iMiGUEは、内的感情によって引き起こされる意図しない行動(micro-gesture)に焦点を当てている。
論文参考訳（メタデータ） (2021-07-01T08:15:14Z)
LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文参考訳（メタデータ） (2020-07-31T00:13:54Z)
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-28T12:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。