論文の概要: Multi-Track Multimodal Learning on iMiGUE: Micro-Gesture and Emotion Recognition
- arxiv url: http://arxiv.org/abs/2512.23291v1
- Date: Mon, 29 Dec 2025 08:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.439994
- Title: Multi-Track Multimodal Learning on iMiGUE: Micro-Gesture and Emotion Recognition
- Title(参考訳): iMiGUEを用いたマルチトラックマルチモーダル学習:マイクロジェスチャと感情認識
- Authors: Arman Martirosyan, Shahane Tigranyan, Maria Razzhivina, Artak Aslanyan, Nazgul Salikhova, Ilya Makarov, Andrey Savchenko, Aram Avetisyan,
- Abstract要約: iMiGUEデータセット上で両方の問題に対処するために設計された2つのフレームワークを提案する。
RGBと3次元ポーズに基づく表現の相補的強みについて検討する。
感情認識のためのフレームワークは、行動に基づく感情予測に拡張する。
- 参考スコア(独自算出の注目度): 4.909448578374012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Micro-gesture recognition and behavior-based emotion prediction are both highly challenging tasks that require modeling subtle, fine-grained human behaviors, primarily leveraging video and skeletal pose data. In this work, we present two multimodal frameworks designed to tackle both problems on the iMiGUE dataset. For micro-gesture classification, we explore the complementary strengths of RGB and 3D pose-based representations to capture nuanced spatio-temporal patterns. To comprehensively represent gestures, video, and skeletal embeddings are extracted using MViTv2-S and 2s-AGCN, respectively. Then, they are integrated through a Cross-Modal Token Fusion module to combine spatial and pose information. For emotion recognition, our framework extends to behavior-based emotion prediction, a binary classification task identifying emotional states based on visual cues. We leverage facial and contextual embeddings extracted using SwinFace and MViTv2-S models and fuse them through an InterFusion module designed to capture emotional expressions and body gestures. Experiments conducted on the iMiGUE dataset, within the scope of the MiGA 2025 Challenge, demonstrate the robust performance and accuracy of our method in the behavior-based emotion prediction task, where our approach secured 2nd place.
- Abstract(参考訳): マイクロジェスチャー認識と行動に基づく感情予測はどちらも、微妙できめ細かい人間の行動のモデリングを必要とする非常に困難なタスクであり、主にビデオと骨格のポーズデータを活用する。
本稿では,iMiGUEデータセット上の両方の問題に対処するための2つのマルチモーダルフレームワークを提案する。
マイクロジェスチャー分類では,RGBと3次元ポーズに基づく表現の相補的強みを探索し,時空間の微妙なパターンを捉えた。
MViTv2-Sおよび2s-AGCNを用いて、ジェスチャー、ビデオ、骨格埋め込みを包括的に表現する。
そして、それらをクロスモーダル・トーケン・フュージョンモジュールを通じて統合し、空間情報とポーズ情報を結合する。
感情認識のためのフレームワークは、視覚的手がかりに基づいて感情状態を特定する二項分類タスクである、行動に基づく感情予測に拡張する。
SwinFaceとMViTv2-Sモデルを用いて抽出した顔と文脈の埋め込みを活用し、感情表現や身体のジェスチャーをキャプチャするためのInterFusionモジュールを通してそれらを融合する。
MiGA 2025 Challengeの範囲内でiMiGUEデータセットを用いて行った実験は、行動に基づく感情予測タスクにおいて、我々の手法の頑健な性能と精度を実証する。
関連論文リスト
- DEFT-LLM: Disentangled Expert Feature Tuning for Micro-Expression Recognition [16.903294278064667]
マルチエキスパート・ディアングルメントによるセマンティックアライメントを実現するDEFT-LLMを提案する。
まず,テキストと局所的な顔の動きを一致させる動作駆動型命令であるUni-MERを紹介する。
次に、3人の専門家によるアーキテクチャを設計し、顔のダイナミクスを独立した表現に分離します。
論文 参考訳(メタデータ) (2025-11-14T04:21:24Z) - Hybrid-supervised Hypergraph-enhanced Transformer for Micro-gesture Based Emotion Recognition [30.016692048849226]
マイクロジェスチャーは、人間の感情状態を伝達できる無意識の身体ジェスチャーである。
ハイパーグラフ強調変換器を用いて行動パターンを再構成することにより,マイクロジェスチャーに基づく感情状態の認識を提案する。
提案手法は,iMiGUEとSMGの2つの公開データセットで評価される。
論文 参考訳(メタデータ) (2025-07-20T08:27:56Z) - Milmer: a Framework for Multiple Instance Learning based Multimodal Emotion Recognition [16.616341358877243]
本研究は,表情解析と脳波信号の統合による感情認識の課題に対処する。
提案するフレームワークは、視覚的および生理的モダリティを効果的に統合するために、トランスフォーマーベースの融合アプローチを採用している。
この研究の重要な革新は、複数の表情画像から意味のある情報を抽出する多重インスタンス学習(MIL)アプローチの採用である。
論文 参考訳(メタデータ) (2025-02-01T20:32:57Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Micro-Expression Recognition by Motion Feature Extraction based on Pre-training [6.015288149235598]
マイクロ圧縮認識タスクのための新しい動き抽出戦略(MoExt)を提案する。
MoExtでは、まず、開始フレームと頂点フレームから形状特徴とテクスチャ特徴を分離して抽出し、その後、両方のフレームの形状特徴に基づいてMEに関連する運動特徴を抽出する。
提案手法の有効性を3つの一般的なデータセットで検証した。
論文 参考訳(メタデータ) (2024-07-10T03:51:34Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding
and Emotion Analysis [23.261770969903065]
iMiGUE(iMiGUE)は、マイクロジェスチャ理解・感情分析のためのアイデンティティフリービデオデータセットである。
iMiGUEは、内的感情によって引き起こされる意図しない行動(micro-gesture)に焦点を当てている。
論文 参考訳(メタデータ) (2021-07-01T08:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。