論文の概要: AMMSM: Adaptive Motion Magnification and Sparse Mamba for Micro-Expression Recognition
- arxiv url: http://arxiv.org/abs/2503.24057v1
- Date: Mon, 31 Mar 2025 13:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:05.055015
- Title: AMMSM: Adaptive Motion Magnification and Sparse Mamba for Micro-Expression Recognition
- Title(参考訳): AMMSM:マイクロ圧縮認識のための適応運動拡大とスパースマンバ
- Authors: Xuxiong Liu, Tengteng Dong, Fei Wang, Weijie Feng, Xiao Sun,
- Abstract要約: 本稿では,Adaptive Motion Magnification and Sparse Mambaというマルチタスク学習フレームワークを提案する。
この枠組みは, 自己監督型微妙な動きの倍率化により, マイクロ表現の精度を高めることを目的としている。
空間選択の倍率係数と空間選択の余剰比を最適化するために進化的探索を用い、さらに性能を向上させるために微調整を行った。
- 参考スコア(独自算出の注目度): 7.084377962617903
- License:
- Abstract: Micro-expressions are typically regarded as unconscious manifestations of a person's genuine emotions. However, their short duration and subtle signals pose significant challenges for downstream recognition. We propose a multi-task learning framework named the Adaptive Motion Magnification and Sparse Mamba (AMMSM) to address this. This framework aims to enhance the accurate capture of micro-expressions through self-supervised subtle motion magnification, while the sparse spatial selection Mamba architecture combines sparse activation with the advanced Visual Mamba model to model key motion regions and their valuable representations more effectively. Additionally, we employ evolutionary search to optimize the magnification factor and the sparsity ratios of spatial selection, followed by fine-tuning to improve performance further. Extensive experiments on two standard datasets demonstrate that the proposed AMMSM achieves state-of-the-art (SOTA) accuracy and robustness.
- Abstract(参考訳): マイクロ表現は通常、人の真の感情の無意識的な表現と見なされる。
しかし、短い期間と微妙な信号は下流認識に重大な課題をもたらす。
本稿では,適応運動拡大・スパースマンバ(AMMSM)と呼ばれるマルチタスク学習フレームワークを提案する。
本フレームワークは,空間選択のスパース化と高度なVisual Mambaモデルを組み合わせることで,キーとなる動き領域とその表現をより効果的にモデル化することを目的としている。
さらに,空間選択の倍率係数と空間選択の疎度比を最適化するために進化探索を用い,さらに性能向上のために微調整を行った。
2つの標準データセットに対する大規模な実験により、提案したAMMSMは最先端(SOTA)の精度と堅牢性を達成することが示された。
関連論文リスト
- Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-Sequence [33.38031167119682]
数ショットのアクション認識では、ビデオの長いサブシーケンスは、アクション全体をより効果的に表現する。
最近のMambaは、長いシーケンスをモデリングする効率を示すが、MambaをFSARに直接適用することは、局所的な特徴モデリングとアライメントの重要性を見落としている。
これらの課題を解決するために,Matryoshka MAmba と CoNtrasTive LeArning フレームワーク (Manta) を提案する。
Mantaは、SSv2、Kineetics、UCF101、HMDB51などの著名なベンチマークで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-10T13:03:42Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Adaptive Temporal Motion Guided Graph Convolution Network for Micro-expression Recognition [48.21696443824074]
ATM-GCN(Adaptive Temporal Motion Guided Graph Convolution Network)と呼ばれる,マイクロ圧縮認識のための新しいフレームワークを提案する。
本フレームワークは,クリップ全体のフレーム間の時間的依存関係の把握に優れ,クリップレベルでのマイクロ圧縮認識が向上する。
論文 参考訳(メタデータ) (2024-06-13T10:57:24Z) - Enhancing Global Sensitivity and Uncertainty Quantification in Medical Image Reconstruction with Monte Carlo Arbitrary-Masked Mamba [22.852768590511058]
本稿では,共同医用画像再構成と不確実性推定のためのウェーブレット分解を用いたArbitrary-Masked MambaベースのモデルであるMambaMIRを紹介する。
新しいArbitrary Scan Masking (ASM) 機構は冗長な情報を「マスクアウト」し、さらなる不確実性推定のためにランダム性を導入する。
テクスチャのさらなる保存と知覚品質の向上のために,我々はMambaMIRへのウェーブレット変換を採用し,その変形を生成的逆数ネットワーク(MambaMIR-GAN)に基づいて探索する。
論文 参考訳(メタデータ) (2024-05-27T21:04:43Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Masked Motion Predictors are Strong 3D Action Representation Learners [143.9677635274393]
人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。
人間の関節において、マスク付き自己成分再構成を行うための一般的な前提に従わず、明示的な文脈運動モデリングが、3次元動作認識のための効果的な特徴表現の学習の成功の鍵となることを示す。
論文 参考訳(メタデータ) (2023-08-14T11:56:39Z) - SMA-STN: Segmented Movement-Attending Spatiotemporal Network
forMicro-Expression Recognition [20.166205708651194]
本稿では,視覚的に視覚的に微妙な動き変化を明らかにするために,SMA-STN( segmented movement-attending network)を提案する。
CALoss II、SAMM、ShiCの3つの広く使われているベンチマークに対する大規模な実験は、提案されたSMA-STNが他の最先端手法よりも優れたMER性能を達成することを示している。
論文 参考訳(メタデータ) (2020-10-19T09:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。