論文の概要: MM-Gesture: Towards Precise Micro-Gesture Recognition through Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2507.08344v1
- Date: Fri, 11 Jul 2025 06:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.264247
- Title: MM-Gesture: Towards Precise Micro-Gesture Recognition through Multimodal Fusion
- Title(参考訳): MM-Gesture:マルチモーダル核融合による精密マイクロジェスチャ認識を目指して
- Authors: Jihao Gu, Fei Wang, Kun Li, Yanyan Wei, Zhiliang Wu, Dan Guo,
- Abstract要約: MM-Gestureは微妙で短期的なマイクロジェスチャー(MG)を認識するためのフレームワークである
関節、手足、RGBビデオ、テイラーシリーズビデオ、オプティカルフロービデオ、深度ビデオモダリティの補完的手がかりを統合している。
MM-Gestureは、IJCAI 2025で第3回MiGAチャレンジの微地形分類トラックで1位にランクインした。
- 参考スコア(独自算出の注目度): 20.82678629321509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present MM-Gesture, the solution developed by our team HFUT-VUT, which ranked 1st in the micro-gesture classification track of the 3rd MiGA Challenge at IJCAI 2025, achieving superior performance compared to previous state-of-the-art methods. MM-Gesture is a multimodal fusion framework designed specifically for recognizing subtle and short-duration micro-gestures (MGs), integrating complementary cues from joint, limb, RGB video, Taylor-series video, optical-flow video, and depth video modalities. Utilizing PoseConv3D and Video Swin Transformer architectures with a novel modality-weighted ensemble strategy, our method further enhances RGB modality performance through transfer learning pre-trained on the larger MA-52 dataset. Extensive experiments on the iMiGUE benchmark, including ablation studies across different modalities, validate the effectiveness of our proposed approach, achieving a top-1 accuracy of 73.213%.
- Abstract(参考訳): 本稿では,我々のチームであるHFUT-VUTが開発したMM-Gestureについて述べる。
MM-Gesture(MM-Gesture)は、関節、手足、RGBビデオ、テイラーシリーズビデオ、光フロービデオ、深度ビデオモダリティの相補的なキューを統合し、微妙で短期的なマイクロジェスチャー(MG)を認識するために特別に設計されたマルチモーダル融合フレームワークである。
提案手法は,PoseConv3D と Video Swin Transformer アーキテクチャを新しいモダリティ重み付きアンサンブル戦略で利用することにより,より大きな MA-52 データセット上で事前学習した転送学習により,RGB のモダリティ性能をさらに向上させる。
iMiGUEベンチマークの大規模な実験は、様々なモードにわたるアブレーション研究を含み、提案手法の有効性を検証し、トップ1の精度73.213%を達成した。
関連論文リスト
- Towards Fine-Grained Emotion Understanding via Skeleton-Based Micro-Gesture Recognition [31.05045816513573]
我々は,IJCAI 2025のMiGAチャレンジにソリューションを提示する。
隠れた感情理解のために、骨格配列から微小妊娠(MG)を認識することを目的としている。
私たちのアプローチは、公式のMiGAチャレンジのリーダーボードで3位です。
論文 参考訳(メタデータ) (2025-06-15T13:42:21Z) - Dynamic Multimodal Fusion via Meta-Learning Towards Micro-Video Recommendation [97.82707398481273]
メタマルチモーダルフュージョン(MetaMMF)と呼ばれるメタラーニングに基づく新しいマルチモーダルフュージョンフレームワークを開発する。
メタMMFは、入力タスクのマルチモーダル特徴から抽出されたメタ情報に基づいて、メタラーナを介して、アイテム固有の融合関数としてニューラルネットワークをパラメータ化する。
我々は3つのベンチマークデータセットに対して広範な実験を行い、最先端のマルチモーダルレコメンデーションモデルに対する大幅な改善を実証した。
論文 参考訳(メタデータ) (2025-01-13T07:51:43Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - vFusedSeg3D: 3rd Place Solution for 2024 Waymo Open Dataset Challenge in Semantic Segmentation [0.0]
VFusedSeg3Dは、カメラ画像のリッチなセマンティックコンテンツと、LiDARの正確な深度センシングを使用して、強力で包括的な環境理解を生成する。
我々の新しい特徴融合技術は、LiDAR点雲の幾何学的特徴とカメラ画像の意味的特徴を組み合わせたものである。
マルチモダリティ技術を用いることで、性能が大幅に向上し、検証セットで72.46%の最先端のmIoUが得られる。
論文 参考訳(メタデータ) (2024-08-09T11:34:19Z) - Prototype Learning for Micro-gesture Classification [47.92089840320192]
我々は,IJCAI 2024におけるMiGAチャレンジにおいて,マイクロ位置分類のためのHFUT-VUTの開発したソリューションを紹介した。
マイクロジェスチャー分類タスクのタスクは、より微細で微妙な身体の動きに焦点を当てたビデオクリップのカテゴリを認識することである。
我々は、MG特徴の識別能力を向上させるために、2つの革新的なモジュール、すなわち、クロスモーダル融合モジュールと原型精製モジュールを利用する。
論文 参考訳(メタデータ) (2024-08-06T10:56:53Z) - Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking [1.8843687952462744]
M3PTは、ミドルフュージョンとマルチモーダル、マルチステージの視覚的プロンプトを活用する新しいRGB-Tプロンプトトラッキング手法である。
メタフレームワークに基づいて、複数のフレキシブルなプロンプト戦略を用いて、事前訓練されたモデルを適用し、ユニモーダルパターンの包括的探索を行う。
論文 参考訳(メタデータ) (2024-03-27T02:06:25Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - VideoAdviser: Video Knowledge Distillation for Multimodal Transfer
Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。
本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。
本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文 参考訳(メタデータ) (2023-09-27T08:44:04Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via
Sequence Modeling [3.867363075280544]
マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。
シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発
モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-06T10:08:11Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion
Recognition [24.02488085447691]
そこで本稿では,MixUp の補足として機能する ShuffleMix という新しいビデオデータ拡張手法を提案する。
第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-16T19:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。