論文の概要: FaceSleuth: Learning-Driven Single-Orientation Attention Verifies Vertical Dominance in Micro-Expression Recognition
- arxiv url: http://arxiv.org/abs/2506.02695v1
- Date: Tue, 03 Jun 2025 09:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.577559
- Title: FaceSleuth: Learning-Driven Single-Orientation Attention Verifies Vertical Dominance in Micro-Expression Recognition
- Title(参考訳): FaceSleuth: マイクロ圧縮認識における垂直的優位性を検証する学習駆動単方向アテンション
- Authors: Linquan Wu, Tianxiang Jiang, Wenhao Duan, Yini Fang, Jacky Keung,
- Abstract要約: マイクロ圧縮認識(MER)は、識別固有の外観を抑えながらミリ秒レベルの低振幅の顔の動きを増幅できるモデルを要求する。
実験的に支配的な垂直軸に沿って動きを高めるデュアルストリームアーキテクチャであるFaceSleuthを導入する。
我々は、独自のプーリング方向をエンドツーエンドに学習する、単一指向(Single-Orientation Attention)モジュールを提案する。
- 参考スコア(独自算出の注目度): 0.7907024451367987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Micro-expression recognition (MER) demands models that can amplify millisecond-level, low-amplitude facial motions while suppressing identity-specific appearance. We introduce FaceSleuth, a dual-stream architecture that (1) enhances motion along the empirically dominant vertical axix through a Continuously Vertical Attention (CVA) block, (2) localises the resulting signals with a Facial Position Focalizer built on hierarchical cross-window attention, and (3) steers feature learning toward physiologically meaningful regions via lightweight Action-Unit embeddings. To examine whether the hand-chosen vertical axis is indeed optimal, we further propose a Single-Orientation Attention (SOA) module that learns its own pooling direction end-to-end. SOA is differentiable, adds only 0.16 % parameters, and collapses to CVA when the learned angle converges to {\Pi}/2. In practice, SOA reliably drifts to 88{\deg}, confirming the effectiveness of the vertical prior while delivering consistent gains. On three standard MER benchmarks, FaceSleuth with CVA already surpasses previous state-of-the-art methods; plugging in SOA lifts accuracy and F1 score performance to 95.1 % / 0.918 on CASME II, 87.1 % / 0.840 on SAMM, and 92.9 % / 0.917 on MMEW without sacrificing model compactness. These results establish a new state of the art and, for the first time, provide empirical evidence that the vertical attention bias is the most discriminative orientation for MER.
- Abstract(参考訳): マイクロ圧縮認識(MER)は、識別固有の外観を抑えながらミリ秒レベルの低振幅の顔の動きを増幅できるモデルを要求する。
本稿では,(1)連続的垂直的注意(CVA)ブロックによる経験的に支配的な垂直軸に沿って運動を促進させるデュアルストリームアーキテクチャであるFaceSleuthを紹介し,(2)階層的クロスウインドウの注意の上に構築された顔位置フォカライザによる信号のローカライズ,(3)軽量なAction-Unit埋め込みによる生理的意味のある領域への学習について述べる。
さらに,手短軸の垂直軸が本当に最適であるかどうかを調べるために,各自のプーリング方向をエンドツーエンドに学習する単一指向注意(SOA)モジュールを提案する。
SOA は微分可能であり、パラメータを 0.16 % 加えるだけで、学習した角度が {\Pi}/2 に収束すると CVA に崩壊する。
実際には、SOAは88{\deg}に確実にドリフトし、一貫した利益を提供しながら、垂直の事前の有効性を確認します。
標準的な3つのMERベンチマークでは、CVAによるFaceSleuthは従来の最先端の手法をすでに上回り、SOAを挿入すると精度が上がり、F1スコアはCASME IIでは95.1 % / 0.918、SAMMでは87.1 % / 0.840、MMEWでは92.9 % / 0.917に向上する。
これらの結果は新たな最先端技術を確立し、垂直的注意バイアスがMERにとって最も差別的な方向であるという実証的な証拠を初めて提示する。
関連論文リスト
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Representation Learning and Identity Adversarial Training for Facial Behavior Understanding [3.350769246260559]
AU検出の基本的な要素として,多種多様データと大規模データと主観的同一性正則化の2つを再検討する。
Face9M上でのマスク付きオートエンコーダの事前トレーニングは、AU検出と表情タスクにおいて強いパフォーマンスをもたらす。
提案手法であるFMAE(Facial Masked Autoencoder)とIATは単純で汎用的で効果的である。
論文 参考訳(メタデータ) (2024-07-15T21:13:28Z) - MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。
本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。
MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T08:57:23Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - A Mixture of Exemplars Approach for Efficient Out-of-Distribution Detection with Foundation Models [0.0]
本稿では, 高品質で凍結, 事前訓練された基礎モデルを用いて, トレーニングの利点を最大化するためのOOD検出への効率的なアプローチを提案する。
MoLARは、OODの例と例の類似性だけを比較すると、強力なOODパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-11-28T06:12:28Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - GaitMAST: Motion-Aware Spatio-Temporal Feature Learning Network for
Cross-View Gait Recognition [32.76653659564304]
動作認識機能の可能性を解き放つGaitMASTを提案する。
GitMASTは個人のユニークなウォーキングパターンをよく保存する。
平均ランク1の精度は98.1%である。
論文 参考訳(メタデータ) (2022-10-21T08:42:00Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。