論文の概要: Micro-Expression Recognition via Fine-Grained Dynamic Perception
- arxiv url: http://arxiv.org/abs/2509.06015v1
- Date: Sun, 07 Sep 2025 11:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.818292
- Title: Micro-Expression Recognition via Fine-Grained Dynamic Perception
- Title(参考訳): 微細粒度動的知覚による微小表現認識
- Authors: Zhiwen Shao, Yifan Cheng, Fan Zhang, Xuehuai Shi, Canlin Li, Lizhuang Ma, Dit-yan Yeung,
- Abstract要約: 顔マイクロ圧縮認識(MER)のためのFDPフレームワークを開発した。
時系列の原フレーム列のフレームレベルの特徴をランク付けし、ランク付けプロセスはMEの出現と動きの両方の動的情報をエンコードする。
提案手法は最先端のMER法よりも優れており,動的画像構築に有効である。
- 参考スコア(独自算出の注目度): 64.26947471761916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial micro-expression recognition (MER) is a challenging task, due to the transience, subtlety, and dynamics of micro-expressions (MEs). Most existing methods resort to hand-crafted features or deep networks, in which the former often additionally requires key frames, and the latter suffers from small-scale and low-diversity training data. In this paper, we develop a novel fine-grained dynamic perception (FDP) framework for MER. We propose to rank frame-level features of a sequence of raw frames in chronological order, in which the rank process encodes the dynamic information of both ME appearances and motions. Specifically, a novel local-global feature-aware transformer is proposed for frame representation learning. A rank scorer is further adopted to calculate rank scores of each frame-level feature. Afterwards, the rank features from rank scorer are pooled in temporal dimension to capture dynamic representation. Finally, the dynamic representation is shared by a MER module and a dynamic image construction module, in which the former predicts the ME category, and the latter uses an encoder-decoder structure to construct the dynamic image. The design of dynamic image construction task is beneficial for capturing facial subtle actions associated with MEs and alleviating the data scarcity issue. Extensive experiments show that our method (i) significantly outperforms the state-of-the-art MER methods, and (ii) works well for dynamic image construction. Particularly, our FDP improves by 4.05%, 2.50%, 7.71%, and 2.11% over the previous best results in terms of F1-score on the CASME II, SAMM, CAS(ME)^2, and CAS(ME)^3 datasets, respectively. The code is available at https://github.com/CYF-cuber/FDP.
- Abstract(参考訳): MER(Facial Micro-Expression Recognition)は、マイクロ表現(ME)の透明性、微妙さ、ダイナミックスのために難しい課題である。
既存のほとんどの手法は手作りの機能やディープネットワークに頼っており、前者はキーフレームを必要とすることが多く、後者は小規模で低多様性のトレーニングデータに悩まされている。
本稿では,MERのためのFDPフレームワークを開発する。
本稿では, フレーム列のフレームレベルの特徴を時系列順にランク付けし, ランク付けプロセスがMEの出現と動きの両方の動的情報をエンコードする手法を提案する。
具体的には,フレーム表現学習のための局所的特徴認識変換器を提案する。
各フレームレベルの特徴のランクスコアを計算するためにランクスコアがさらに採用される。
その後、ランクスコアからのランク特徴を時間次元にプールし、動的表現をキャプチャする。
最後に、動的表現をMERモジュールと動的画像構築モジュールで共有し、前者はMEカテゴリを予測し、後者はエンコーダデコーダ構造を用いて動的画像を構築する。
動的画像構築タスクの設計は、MEに関連する顔の微妙な動作を捕捉し、データ不足の問題を軽減するのに有用である。
広汎な実験により、我々の方法が示される
(i)最先端のMER法を著しく上回り、
(ii)動的画像構築には有効である。
特に,我々のFDPは,CASME II,SAMM,CAS(ME)^2,CAS(ME)^3データセットのF1スコアにおいて,従来の最良値よりも4.05%,2.50%,7.71%,2.11%向上した。
コードはhttps://github.com/CYF-cuber/FDPで入手できる。
関連論文リスト
- DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。