論文の概要: MOL: Joint Estimation of Micro-Expression, Optical Flow, and Landmark via Transformer-Graph-Style Convolution
- arxiv url: http://arxiv.org/abs/2506.14511v1
- Date: Tue, 17 Jun 2025 13:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.485121
- Title: MOL: Joint Estimation of Micro-Expression, Optical Flow, and Landmark via Transformer-Graph-Style Convolution
- Title(参考訳): MOL:Transformer-Graph-Style Convolutionによるマイクロ圧縮,光フロー,ランドマークの同時推定
- Authors: Zhiwen Shao, Yifan Cheng, Feiran Li, Yong Zhou, Xuequan Lu, Yuan Xie, Lizhuang Ma,
- Abstract要約: 顔のマイクロ圧縮認識(MER)は、過渡的かつ微妙なマイクロ圧縮(ME)作用のために難しい問題である。
本稿では、トランスフォーマー、グラフ畳み込み、バニラ畳み込みの利点を生かしたエンドツーエンドのマイクロアクション対応ディープラーニングフレームワークを提案する。
我々のフレームワークはCASME II, SAMM, SMICベンチマークにおける最先端のMER手法よりも優れています。
- 参考スコア(独自算出の注目度): 46.600316142855334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial micro-expression recognition (MER) is a challenging problem, due to transient and subtle micro-expression (ME) actions. Most existing methods depend on hand-crafted features, key frames like onset, apex, and offset frames, or deep networks limited by small-scale and low-diversity datasets. In this paper, we propose an end-to-end micro-action-aware deep learning framework with advantages from transformer, graph convolution, and vanilla convolution. In particular, we propose a novel F5C block composed of fully-connected convolution and channel correspondence convolution to directly extract local-global features from a sequence of raw frames, without the prior knowledge of key frames. The transformer-style fully-connected convolution is proposed to extract local features while maintaining global receptive fields, and the graph-style channel correspondence convolution is introduced to model the correlations among feature patterns. Moreover, MER, optical flow estimation, and facial landmark detection are jointly trained by sharing the local-global features. The two latter tasks contribute to capturing facial subtle action information for MER, which can alleviate the impact of insufficient training data. Extensive experiments demonstrate that our framework (i) outperforms the state-of-the-art MER methods on CASME II, SAMM, and SMIC benchmarks, (ii) works well for optical flow estimation and facial landmark detection, and (iii) can capture facial subtle muscle actions in local regions associated with MEs. The code is available at https://github.com/CYF-cuber/MOL.
- Abstract(参考訳): 顔のマイクロ圧縮認識(MER)は、過渡的かつ微妙なマイクロ圧縮(ME)作用のために難しい問題である。
既存のほとんどの手法は手作りの特徴、オンセット、頂点、オフセットフレームのようなキーフレーム、または小規模で低多様性のデータセットで制限されたディープネットワークに依存している。
本稿では,変換器,グラフ畳み込み,バニラ畳み込みの利点を生かした,エンドツーエンドのマイクロアクション対応ディープラーニングフレームワークを提案する。
特に,完全連結畳み込みとチャネル対応畳み込みからなる新しいF5Cブロックを提案する。
グローバルな受容場を維持しながら局所的な特徴を抽出するためにトランスフォーマースタイルの完全連結畳み込みを提案し,特徴パターン間の相関をモデル化するためにグラフスタイルのチャネル対応畳み込みを導入した。
さらに、MER、光フロー推定、顔のランドマーク検出は、局所的な特徴を共有することで共同で訓練される。
後者の2つのタスクは、MERの顔の微妙なアクション情報を取得することに寄与する。
大規模な実験は我々の枠組みを実証する
i) CASME II, SAMM, SMICベンチマークにおける最先端のMER手法よりも優れている。
(II)光学的フロー推定と顔のランドマーク検出に有効であり、
3)MEsに関連する局所領域における顔の微妙な筋活動の捉え方について検討する。
コードはhttps://github.com/CYF-cuber/MOLで公開されている。
関連論文リスト
- MSCI: Addressing CLIP's Inherent Limitations for Compositional Zero-Shot Learning [8.021031339658492]
構成ゼロショット学習は、既知の組み合わせを活用して、目に見えない状態オブジェクトの組み合わせを認識することを目的としている。
既存の研究は基本的にCLIPのクロスモーダルアライメント機能に依存している。
本稿では,CLIPのビジュアルエンコーダの中間層情報を効果的に探索し,活用する多段階クロスモーダルインタラクションモデルを提案する。
論文 参考訳(メタデータ) (2025-05-15T13:36:42Z) - MambaMIC: An Efficient Baseline for Microscopic Image Classification with State Space Models [12.182070604073585]
本研究では,顕微鏡画像分類(MIC)タスクのための視覚バックボーンであるMambaMICを提案する。
具体的には,MambaMIC Blockというローカル・グローバルなデュアルブランチアグリゲーションモジュールを紹介する。
局所的な分岐では、局所的な畳み込みを用いて画素類似性を捉え、局所的な画素の忘れと知覚の増強を緩和する。
グローバルブランチでは、SSMはグローバル依存関係を抽出し、Locally Aware Enhanced Filterはチャネルの冗長性とローカルピクセルの忘れを低減します。
論文 参考訳(メタデータ) (2024-09-12T10:01:33Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Micro-Expression Recognition by Motion Feature Extraction based on Pre-training [6.015288149235598]
マイクロ圧縮認識タスクのための新しい動き抽出戦略(MoExt)を提案する。
MoExtでは、まず、開始フレームと頂点フレームから形状特徴とテクスチャ特徴を分離して抽出し、その後、両方のフレームの形状特徴に基づいてMEに関連する運動特徴を抽出する。
提案手法の有効性を3つの一般的なデータセットで検証した。
論文 参考訳(メタデータ) (2024-07-10T03:51:34Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - Precise Knowledge Transfer via Flow Matching [24.772381404849174]
我々はこのフレームワークをフローマッチングを用いた知識伝達(FM-KT)と呼ぶ。
FM-KTは任意の形態(バニラKD、DKD、PKD、DISTなど)のメートル法に基づく蒸留法と統合することができる。
提案手法のスケーラビリティと最先端性能を,関連する比較手法で実証的に検証した。
論文 参考訳(メタデータ) (2024-02-03T03:59:51Z) - GAFlow: Incorporating Gaussian Attention into Optical Flow [62.646389181507764]
我々はガウス的注意(GA)を光学フローモデルに押し込み、表現学習中に局所特性をアクセントする。
本稿では,既存の Transformer ブロックに簡単に接続可能な新しい Gaussian-Constrained Layer (GCL) を提案する。
動作解析のための新しいガウス誘導注意モジュール(GGAM)を提供する。
論文 参考訳(メタデータ) (2023-09-28T07:46:01Z) - Feature Representation Learning with Adaptive Displacement Generation
and Transformer Fusion for Micro-Expression Recognition [18.6490971645882]
マイクロ表現は自然に、素早く、微妙な顔の動きであり、偽造も抑制もできない。
適応的変位生成と変圧器融合(FRL-DGT)を用いた特徴表現学習フレームワークを提案する。
ソリッド・エンド・ワン・オブジェクト・アウト (LOSO) 評価実験により, 提案したFRL-DGTの最先端手法に対する優位性を実証した。
論文 参考訳(メタデータ) (2023-04-10T07:03:36Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。