論文の概要: FAMNet: Integrating 2D and 3D Features for Micro-expression Recognition via Multi-task Learning and Hierarchical Attention
- arxiv url: http://arxiv.org/abs/2508.13483v1
- Date: Tue, 19 Aug 2025 03:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.784076
- Title: FAMNet: Integrating 2D and 3D Features for Micro-expression Recognition via Multi-task Learning and Hierarchical Attention
- Title(参考訳): FAMNet:マルチタスク学習と階層的注意によるマイクロ圧縮認識のための2次元・3次元特徴の統合
- Authors: Liangyu Fu, Xuecheng Wu, Danlei Huang, Xinyi Yin,
- Abstract要約: マイクロ表現認識(MER)は多くの分野において必須の応用価値を持つが,マイクロ表現認識(ME)の短期的・低強度化はMERに重大な課題をもたらす。
本稿では,2次元CNNと3次元CNNを組み合わせることで,MEsの全方位特徴を完全に抽出する,マルチタスク学習と階層的注意に基づく新しいMER手法を提案する。
大規模な実験結果から,提案するFAMNetはタスク性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-expressions recognition (MER) has essential application value in many fields, but the short duration and low intensity of micro-expressions (MEs) bring considerable challenges to MER. The current MER methods in deep learning mainly include three data loading methods: static images, dynamic image sequence, and a combination of the two streams. How to effectively extract MEs' fine-grained and spatiotemporal features has been difficult to solve. This paper proposes a new MER method based on multi-task learning and hierarchical attention, which fully extracts MEs' omni-directional features by merging 2D and 3D CNNs. The fusion model consists of a 2D CNN AMNet2D and a 3D CNN AMNet3D, with similar structures consisting of a shared backbone network Resnet18 and attention modules. During training, the model adopts different data loading methods to adapt to two specific networks respectively, jointly trains on the tasks of MER and facial action unit detection (FAUD), and adopts the parameter hard sharing for information association, which further improves the effect of the MER task, and the final fused model is called FAMNet. Extensive experimental results show that our proposed FAMNet significantly improves task performance. On the SAMM, CASME II and MMEW datasets, FAMNet achieves 83.75% (UAR) and 84.03% (UF1). Furthermore, on the challenging CAS(ME)$^3$ dataset, FAMNet achieves 51% (UAR) and 43.42% (UF1).
- Abstract(参考訳): マイクロ表現認識(MER)は多くの分野において必須の応用価値を持つが,マイクロ表現認識(ME)の短期的・低強度化はMERに重大な課題をもたらす。
ディープラーニングにおける現在のMER法は主に静的画像、動的画像シーケンス、および2つのストリームの組み合わせの3つのデータローディング方法を含む。
MEsの微細で時空間的な特徴を効果的に抽出する方法は、解決が難しい。
本稿では,2次元CNNと3次元CNNを組み合わせることで,MEsの全方位特徴を完全に抽出する,マルチタスク学習と階層的注意に基づく新しいMER手法を提案する。
融合モデルは2D CNN AMNet2Dと3D CNN AMNet3Dで構成され、同様の構造は共有バックボーンネットワークResnet18とアテンションモジュールで構成されている。
トレーニング中、モデルは2つの特定のネットワークにそれぞれ適応するための異なるデータローディング手法を採用し、MERタスクとFAUD(顔動作単位検出)のタスクを共同で訓練し、情報関連のためのパラメータハードシェアリングを採用し、MERタスクの効果をさらに改善し、最終的な融合モデルをFAMNetと呼ぶ。
大規模な実験結果から,提案するFAMNetはタスク性能を大幅に向上することが示された。
SAMM、CASME II、MMEWデータセットでは、FAMNetは83.75%(UAR)と84.03%(UF1)を達成した。
さらに、挑戦的なCAS(ME)$^3$データセットでは、FAMNetは51%(UAR)と43.42%(UF1)を達成した。
関連論文リスト
- MPFNet: A Multi-Prior Fusion Network with a Progressive Training Strategy for Micro-Expression Recognition [2.719872133434811]
本稿では,MPFNet(Multi-Prior Fusion Network)を提案する。
発達心理学にインスパイアされたMPFNet--MPFNet-PとMPFNet--Cの2つの変種を,幼児の認知並列処理と階層処理の2つの基本モードに対応して提示する。
論文 参考訳(メタデータ) (2025-06-11T13:39:41Z) - MSLAU-Net: A Hybird CNN-Transformer Network for Medical Image Segmentation [7.826754189244901]
CNNベースの手法とトランスフォーマーベースの手法の両方が、医用画像分割タスクにおいて顕著な成功を収めている。
両パラダイムの長所を統合した新しいハイブリッドCNN-Transformerアーキテクチャ MSLAU-Netを提案する。
提案したMSLAU-Netには,2つの重要なアイデアが組み込まれている。まず,医療画像からマルチスケール特徴を効率的に抽出する,マルチスケール線形注意(multi-Scale Linear Attention)が導入されている。
第二に、マルチレベル特徴集約を行い、空間分解能を復元するトップダウン特徴集約機構を採用する。
論文 参考訳(メタデータ) (2025-05-24T18:48:29Z) - DSU-Net:An Improved U-Net Model Based on DINOv2 and SAM2 with Multi-scale Cross-model Feature Enhancement [7.9006143460465355]
本稿では,DINOv2によるSAM2用マルチスケール機能協調フレームワークを提案する。
コストのかかるトレーニングプロセスを必要とせず、カモフラージュ目標検出や有能なオブジェクト検出といった下流タスクにおいて、既存の最先端のメソオードを超越している。
論文 参考訳(メタデータ) (2025-03-27T06:08:24Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文 参考訳(メタデータ) (2024-04-21T13:29:42Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。