論文の概要: FAMNet: Integrating 2D and 3D Features for Micro-expression Recognition via Multi-task Learning and Hierarchical Attention
- arxiv url: http://arxiv.org/abs/2508.13483v1
- Date: Tue, 19 Aug 2025 03:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.784076
- Title: FAMNet: Integrating 2D and 3D Features for Micro-expression Recognition via Multi-task Learning and Hierarchical Attention
- Title(参考訳): FAMNet:マルチタスク学習と階層的注意によるマイクロ圧縮認識のための2次元・3次元特徴の統合
- Authors: Liangyu Fu, Xuecheng Wu, Danlei Huang, Xinyi Yin,
- Abstract要約: マイクロ表現認識(MER)は多くの分野において必須の応用価値を持つが,マイクロ表現認識(ME)の短期的・低強度化はMERに重大な課題をもたらす。
本稿では,2次元CNNと3次元CNNを組み合わせることで,MEsの全方位特徴を完全に抽出する,マルチタスク学習と階層的注意に基づく新しいMER手法を提案する。
大規模な実験結果から,提案するFAMNetはタスク性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-expressions recognition (MER) has essential application value in many fields, but the short duration and low intensity of micro-expressions (MEs) bring considerable challenges to MER. The current MER methods in deep learning mainly include three data loading methods: static images, dynamic image sequence, and a combination of the two streams. How to effectively extract MEs' fine-grained and spatiotemporal features has been difficult to solve. This paper proposes a new MER method based on multi-task learning and hierarchical attention, which fully extracts MEs' omni-directional features by merging 2D and 3D CNNs. The fusion model consists of a 2D CNN AMNet2D and a 3D CNN AMNet3D, with similar structures consisting of a shared backbone network Resnet18 and attention modules. During training, the model adopts different data loading methods to adapt to two specific networks respectively, jointly trains on the tasks of MER and facial action unit detection (FAUD), and adopts the parameter hard sharing for information association, which further improves the effect of the MER task, and the final fused model is called FAMNet. Extensive experimental results show that our proposed FAMNet significantly improves task performance. On the SAMM, CASME II and MMEW datasets, FAMNet achieves 83.75% (UAR) and 84.03% (UF1). Furthermore, on the challenging CAS(ME)$^3$ dataset, FAMNet achieves 51% (UAR) and 43.42% (UF1).
- Abstract(参考訳): マイクロ表現認識(MER)は多くの分野において必須の応用価値を持つが,マイクロ表現認識(ME)の短期的・低強度化はMERに重大な課題をもたらす。
ディープラーニングにおける現在のMER法は主に静的画像、動的画像シーケンス、および2つのストリームの組み合わせの3つのデータローディング方法を含む。
MEsの微細で時空間的な特徴を効果的に抽出する方法は、解決が難しい。
本稿では,2次元CNNと3次元CNNを組み合わせることで,MEsの全方位特徴を完全に抽出する,マルチタスク学習と階層的注意に基づく新しいMER手法を提案する。
融合モデルは2D CNN AMNet2Dと3D CNN AMNet3Dで構成され、同様の構造は共有バックボーンネットワークResnet18とアテンションモジュールで構成されている。
トレーニング中、モデルは2つの特定のネットワークにそれぞれ適応するための異なるデータローディング手法を採用し、MERタスクとFAUD(顔動作単位検出)のタスクを共同で訓練し、情報関連のためのパラメータハードシェアリングを採用し、MERタスクの効果をさらに改善し、最終的な融合モデルをFAMNetと呼ぶ。
大規模な実験結果から,提案するFAMNetはタスク性能を大幅に向上することが示された。
SAMM、CASME II、MMEWデータセットでは、FAMNetは83.75%(UAR)と84.03%(UF1)を達成した。
さらに、挑戦的なCAS(ME)$^3$データセットでは、FAMNetは51%(UAR)と43.42%(UF1)を達成した。
関連論文リスト
- MPFNet: A Multi-Prior Fusion Network with a Progressive Training Strategy for Micro-Expression Recognition [2.719872133434811]
本稿では,MPFNet(Multi-Prior Fusion Network)を提案する。
発達心理学にインスパイアされたMPFNet--MPFNet-PとMPFNet--Cの2つの変種を,幼児の認知並列処理と階層処理の2つの基本モードに対応して提示する。
論文 参考訳(メタデータ) (2025-06-11T13:39:41Z) - MSLAU-Net: A Hybird CNN-Transformer Network for Medical Image Segmentation [7.826754189244901]
CNNベースの手法とトランスフォーマーベースの手法の両方が、医用画像分割タスクにおいて顕著な成功を収めている。
両パラダイムの長所を統合した新しいハイブリッドCNN-Transformerアーキテクチャ MSLAU-Netを提案する。
提案したMSLAU-Netには,2つの重要なアイデアが組み込まれている。まず,医療画像からマルチスケール特徴を効率的に抽出する,マルチスケール線形注意(multi-Scale Linear Attention)が導入されている。
第二に、マルチレベル特徴集約を行い、空間分解能を復元するトップダウン特徴集約機構を採用する。
論文 参考訳(メタデータ) (2025-05-24T18:48:29Z) - DSU-Net:An Improved U-Net Model Based on DINOv2 and SAM2 with Multi-scale Cross-model Feature Enhancement [7.9006143460465355]
本稿では,DINOv2によるSAM2用マルチスケール機能協調フレームワークを提案する。
コストのかかるトレーニングプロセスを必要とせず、カモフラージュ目標検出や有能なオブジェクト検出といった下流タスクにおいて、既存の最先端のメソオードを超越している。
論文 参考訳(メタデータ) (2025-03-27T06:08:24Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文 参考訳(メタデータ) (2024-04-21T13:29:42Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。