Fugu-MT 論文翻訳(概要): Feature Representation Learning with Adaptive Displacement Generation and Transformer Fusion for Micro-Expression Recognition

論文の概要: Feature Representation Learning with Adaptive Displacement Generation and Transformer Fusion for Micro-Expression Recognition

arxiv url: http://arxiv.org/abs/2304.04420v1
Date: Mon, 10 Apr 2023 07:03:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-11 15:47:18.688971
Title: Feature Representation Learning with Adaptive Displacement Generation and Transformer Fusion for Micro-Expression Recognition
Title（参考訳）: マイクロ表現認識のための適応変位生成と変圧器融合を用いた特徴表現学習
Authors: Zhijun Zhai, Jianhui Zhao, Chengjiang Long, Wenju Xu, Shuangjiang He, Huijuan Zhao
Abstract要約: マイクロ表現は自然に、素早く、微妙な顔の動きであり、偽造も抑制もできない。適応的変位生成と変圧器融合(FRL-DGT)を用いた特徴表現学習フレームワークを提案する。ソリッド・エンド・ワン・オブジェクト・アウト (LOSO) 評価実験により, 提案したFRL-DGTの最先端手法に対する優位性を実証した。
参考スコア（独自算出の注目度）: 18.6490971645882
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Micro-expressions are spontaneous, rapid and subtle facial movements that can neither be forged nor suppressed. They are very important nonverbal communication clues, but are transient and of low intensity thus difficult to recognize. Recently deep learning based methods have been developed for micro-expression (ME) recognition using feature extraction and fusion techniques, however, targeted feature learning and efficient feature fusion still lack further study according to the ME characteristics. To address these issues, we propose a novel framework Feature Representation Learning with adaptive Displacement Generation and Transformer fusion (FRL-DGT), in which a convolutional Displacement Generation Module (DGM) with self-supervised learning is used to extract dynamic features from onset/apex frames targeted to the subsequent ME recognition task, and a well-designed Transformer Fusion mechanism composed of three Transformer-based fusion modules (local, global fusions based on AU regions and full-face fusion) is applied to extract the multi-level informative features after DGM for the final ME prediction. The extensive experiments with solid leave-one-subject-out (LOSO) evaluation results have demonstrated the superiority of our proposed FRL-DGT to state-of-the-art methods.
Abstract（参考訳）: マイクロ表現は自発的で、迅速で微妙な顔の動きであり、鍛造も抑制もできない。これらは非常に重要な非言語コミュニケーションの手がかりであるが、過渡的であり、低強度であるため認識が困難である。近年, 特徴抽出と融合技術を用いたマイクロ圧縮(ME)認識のための深層学習法が開発されているが, 目標となる特徴学習と効率的な特徴融合は, ME特性によるさらなる研究を欠いている。 To address these issues, we propose a novel framework Feature Representation Learning with adaptive Displacement Generation and Transformer fusion (FRL-DGT), in which a convolutional Displacement Generation Module (DGM) with self-supervised learning is used to extract dynamic features from onset/apex frames targeted to the subsequent ME recognition task, and a well-designed Transformer Fusion mechanism composed of three Transformer-based fusion modules (local, global fusions based on AU regions and full-face fusion) is applied to extract the multi-level informative features after DGM for the final ME prediction. ソリッド・ワン・サブジェクト・アウト (LOSO) 評価実験により, 提案したFRL-DGTの最先端手法に対する優位性を示した。

関連論文リスト

AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion [26.058143518505805]
本稿では,微妙な強度とデータ不足を伴うマイクロ圧縮データセットにおけるマイクロ圧縮アクションユニット(AU)の検出にLarge Language Modelsを用いた新しいフレームワークであるtextbfAU-LLMを紹介する。 EFPはMulti-Layer Perceptron(MLP)を用いて、特殊な3D-CNNバックボーンからの中間レベル(局所的なテクスチャ)と高レベル(グローバルなセマンティクス)の視覚的特徴を単一の情報密度トークンにインテリジェントに融合する。
論文参考訳（メタデータ） (2025-07-29T13:01:59Z)
Temporal and Spatial Feature Fusion Framework for Dynamic Micro Expression Recognition [5.444324424467006]
過渡的かつ高度に局所化されたマイクロ表現は、その正確な認識に重大な課題をもたらす。マイクロ圧縮認識の精度は、プロでも50%以下である。 DMER(TSFmicro)のための新しい時間空間特徴融合フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-22T08:26:19Z)
Milmer: a Framework for Multiple Instance Learning based Multimodal Emotion Recognition [16.616341358877243]
本研究は,表情解析と脳波信号の統合による感情認識の課題に対処する。提案するフレームワークは、視覚的および生理的モダリティを効果的に統合するために、トランスフォーマーベースの融合アプローチを採用している。この研究の重要な革新は、複数の表情画像から意味のある情報を抽出する多重インスタンス学習(MIL)アプローチの採用である。
論文参考訳（メタデータ） (2025-02-01T20:32:57Z)
LoFLAT: Local Feature Matching using Focused Linear Attention Transformer [36.53651224633837]
We propose the LoFLAT, a novel Local Feature matching using Focused Linear Attention Transformer。私たちのLoFLATは、Feature extract Module、Feature Transformer Module、Matching Moduleの3つの主要なモジュールで構成されています。提案した LoFLAT は効率と精度の両方で LoFTR 法より優れている。
論文参考訳（メタデータ） (2024-10-30T05:38:07Z)
SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文参考訳（メタデータ） (2024-10-15T07:26:39Z)
Micro-Expression Recognition by Motion Feature Extraction based on Pre-training [6.015288149235598]
マイクロ圧縮認識タスクのための新しい動き抽出戦略(MoExt)を提案する。 MoExtでは、まず、開始フレームと頂点フレームから形状特徴とテクスチャ特徴を分離して抽出し、その後、両方のフレームの形状特徴に基づいてMEに関連する運動特徴を抽出する。提案手法の有効性を3つの一般的なデータセットで検証した。
論文参考訳（メタデータ） (2024-07-10T03:51:34Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文参考訳（メタデータ） (2024-01-31T05:20:29Z)
X Modality Assisting RGBT Object Tracking [36.614908357546035]
本稿では,融合パラダイムの影響を光を当てるために,新しいXモダリティ支援ネットワーク(X-Net)を提案する。 RGBと熱モダリティの相違から生じる特徴学習のハードルに対処するために,プラグアンドプレイピクセルレベル生成モジュール(PGM)を提案する。また,混合特徴量対話変換器と空間次元特徴量変換戦略を組み込んだ特徴量対話モジュール (FIM) を提案する。
論文参考訳（メタデータ） (2023-12-27T05:38:54Z)
Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文参考訳（メタデータ） (2023-05-19T05:50:24Z)
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文参考訳（メタデータ） (2022-01-24T17:48:04Z)
Short and Long Range Relation Based Spatio-Temporal Transformer for Micro-Expression Recognition [61.374467942519374]
我々は,マイクロ圧縮認識のための最初の純粋トランスフォーマーベースアプローチである,新しいアテンポ的トランスフォーマーアーキテクチャを提案する。空間パターンを学習する空間エンコーダと、時間的分析のための時間的次元分類と、ヘッドとを備える。広範に使用されている3つの自発的マイクロ圧縮データセットに対する総合的な評価は,提案手法が一貫して芸術の状態を上回っていることを示している。
論文参考訳（メタデータ） (2021-12-10T22:10:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。