論文の概要: Micro-Expression Recognition via Fine-Grained Dynamic Perception
- arxiv url: http://arxiv.org/abs/2509.06015v1
- Date: Sun, 07 Sep 2025 11:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.818292
- Title: Micro-Expression Recognition via Fine-Grained Dynamic Perception
- Title(参考訳): 微細粒度動的知覚による微小表現認識
- Authors: Zhiwen Shao, Yifan Cheng, Fan Zhang, Xuehuai Shi, Canlin Li, Lizhuang Ma, Dit-yan Yeung,
- Abstract要約: 顔マイクロ圧縮認識(MER)のためのFDPフレームワークを開発した。
時系列の原フレーム列のフレームレベルの特徴をランク付けし、ランク付けプロセスはMEの出現と動きの両方の動的情報をエンコードする。
提案手法は最先端のMER法よりも優れており,動的画像構築に有効である。
- 参考スコア(独自算出の注目度): 64.26947471761916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial micro-expression recognition (MER) is a challenging task, due to the transience, subtlety, and dynamics of micro-expressions (MEs). Most existing methods resort to hand-crafted features or deep networks, in which the former often additionally requires key frames, and the latter suffers from small-scale and low-diversity training data. In this paper, we develop a novel fine-grained dynamic perception (FDP) framework for MER. We propose to rank frame-level features of a sequence of raw frames in chronological order, in which the rank process encodes the dynamic information of both ME appearances and motions. Specifically, a novel local-global feature-aware transformer is proposed for frame representation learning. A rank scorer is further adopted to calculate rank scores of each frame-level feature. Afterwards, the rank features from rank scorer are pooled in temporal dimension to capture dynamic representation. Finally, the dynamic representation is shared by a MER module and a dynamic image construction module, in which the former predicts the ME category, and the latter uses an encoder-decoder structure to construct the dynamic image. The design of dynamic image construction task is beneficial for capturing facial subtle actions associated with MEs and alleviating the data scarcity issue. Extensive experiments show that our method (i) significantly outperforms the state-of-the-art MER methods, and (ii) works well for dynamic image construction. Particularly, our FDP improves by 4.05%, 2.50%, 7.71%, and 2.11% over the previous best results in terms of F1-score on the CASME II, SAMM, CAS(ME)^2, and CAS(ME)^3 datasets, respectively. The code is available at https://github.com/CYF-cuber/FDP.
- Abstract(参考訳): MER(Facial Micro-Expression Recognition)は、マイクロ表現(ME)の透明性、微妙さ、ダイナミックスのために難しい課題である。
既存のほとんどの手法は手作りの機能やディープネットワークに頼っており、前者はキーフレームを必要とすることが多く、後者は小規模で低多様性のトレーニングデータに悩まされている。
本稿では,MERのためのFDPフレームワークを開発する。
本稿では, フレーム列のフレームレベルの特徴を時系列順にランク付けし, ランク付けプロセスがMEの出現と動きの両方の動的情報をエンコードする手法を提案する。
具体的には,フレーム表現学習のための局所的特徴認識変換器を提案する。
各フレームレベルの特徴のランクスコアを計算するためにランクスコアがさらに採用される。
その後、ランクスコアからのランク特徴を時間次元にプールし、動的表現をキャプチャする。
最後に、動的表現をMERモジュールと動的画像構築モジュールで共有し、前者はMEカテゴリを予測し、後者はエンコーダデコーダ構造を用いて動的画像を構築する。
動的画像構築タスクの設計は、MEに関連する顔の微妙な動作を捕捉し、データ不足の問題を軽減するのに有用である。
広汎な実験により、我々の方法が示される
(i)最先端のMER法を著しく上回り、
(ii)動的画像構築には有効である。
特に,我々のFDPは,CASME II,SAMM,CAS(ME)^2,CAS(ME)^3データセットのF1スコアにおいて,従来の最良値よりも4.05%,2.50%,7.71%,2.11%向上した。
コードはhttps://github.com/CYF-cuber/FDPで入手できる。
関連論文リスト
- DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - AFM-Net: Advanced Fusing Hierarchical CNN Visual Priors with Global Sequence Modeling for Remote Sensing Image Scene Classification [32.67944942908809]
AFM-Netは、2つの経路を通して効果的な局所的およびグローバルな共表現を実現する新しいフレームワークである。
AFM-Netの核となる革新は階層的融合機構(Hierarchical Fusion Mechanism)にある。
AID、NWPU-RESISC45、UC Mercedの実験では、AMM-Netは93.72、95.54、96.92パーセントの精度を得ており、性能と効率のバランスが取れた最先端の手法を上回っている。
論文 参考訳(メタデータ) (2025-10-31T03:55:16Z) - Adaptive Fusion Network with Temporal-Ranked and Motion-Intensity Dynamic Images for Micro-expression Recognition [0.0]
マイクロ・エクスプレッション(ME)は微妙で過渡的な顔の変化であり、非常に低強度であり、肉眼ではほとんど知覚できない。
本稿では2つの主な貢献点を持つ新しいMER法を提案する。
まず,時間的進行を重視したテンポラルランク動的画像と,動きの強度を取り入れたフレームリオーダー機構による微妙な動きを強調するモーションインテンシティ動的画像の2つの相補的表現を提案する。
第2に,これら2つの表現を最適に統合することを自動的に学習し,雑音を抑えながら識別的ME特性を向上する適応融合ネットワークを提案する。
論文 参考訳(メタデータ) (2025-10-10T11:03:20Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。