論文の概要: FaceSleuth-R: Adaptive Orientation-Aware Attention for Robust Micro-Expression Recognition
- arxiv url: http://arxiv.org/abs/2506.02695v3
- Date: Sat, 08 Nov 2025 07:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.356942
- Title: FaceSleuth-R: Adaptive Orientation-Aware Attention for Robust Micro-Expression Recognition
- Title(参考訳): FaceSleuth-R:ロバストなマイクロ圧縮認識のための適応指向認識
- Authors: Linquan Wu, Tianxiang Jiang, Haoyu Yang, Wenhao Duan, Shaochao Lin, Zixuan Wang, Yini Fang, Jacky Keung,
- Abstract要約: textbfFaceSleuth-Rは、新しい textbfSingle-Orientation Attention (SOA) モジュールを中心にしたフレームワークです。
SOAは軽量で差別化可能な演算子で、ネットワークが層固有の最適方向を学習できるようにする。
私たちは、SOAが様々なデータセットにまたがる、普遍的なニアバーティカルな動きを常に発見していることを示します。
- 参考スコア(独自算出の注目度): 25.77351512351652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Micro-expression recognition (MER) has achieved impressive accuracy in controlled laboratory settings. However, its real-world applicability faces a significant generalization cliff, severely hindering practical deployment due to poor performance on unseen data and susceptibility to domain shifts. Existing attention mechanisms often overfit to dataset-specific appearance cues or rely on fixed spatial priors, making them fragile in diverse environments. We posit that robust MER requires focusing on quasi-invariant motion orientations inherent to micro-expressions, rather than superficial pixel-level features. To this end, we introduce \textbf{FaceSleuth-R}, a framework centered on our novel \textbf{Single-Orientation Attention (SOA)} module. SOA is a lightweight, differentiable operator that enables the network to learn layer-specific optimal orientations, effectively guiding attention towards these robust motion cues. Through extensive experiments, we demonstrate that SOA consistently discovers a universal near-vertical motion prior across diverse datasets. More critically, FaceSleuth-R showcases superior generalization in rigorous Leave-One-Dataset-Out (LODO) protocols, significantly outperforming baselines and state-of-the-art methods when confronted with domain shifts. Furthermore, our approach establishes \textbf{state-of-the-art results} across several benchmarks. This work highlights adaptive orientation-aware attention as a key paradigm for developing truly generalized and high-performing MER systems.
- Abstract(参考訳): マイクロ圧縮認識 (MER) は, 制御された実験室設定において顕著な精度を達成している。
しかし、実世界の適用性は大きな一般化の崖に面しており、目に見えないデータのパフォーマンスが悪く、ドメインシフトへの感受性が低いため、実践的なデプロイメントを著しく妨げている。
既存の注意機構は、しばしばデータセット固有の外観に過度に適合するか、固定された空間的事前に依存するため、多様な環境において脆弱である。
我々は,ロバストなMERは,表面画素レベルの特徴ではなく,マイクロ表現に固有の準不変な動き方向に着目する必要があると仮定する。
この目的のために、我々は、新しい \textbf{Single-Orientation Attention (SOA) モジュールを中心としたフレームワークである \textbf{FaceSleuth-R} を紹介します。
SOAは軽量で差別化可能な演算子で、ネットワークは層固有の最適方向を学習し、これらの堅牢な動きの手がかりに効果的に注意を向けることができます。
広範な実験を通じて、SOAはさまざまなデータセットにまたがる、普遍的なニアバーティカルな動きを常に発見していることを実証します。
さらに重要なことは、FaceSleuth-Rは厳格なLeave-One-Dataset-Out(LODO)プロトコルにおける優れた一般化を示し、ドメインシフトに直面すると、ベースラインと最先端メソッドを著しく上回っている。
さらに, 提案手法は, いくつかのベンチマークにおいて, <textbf{state-of-the-art results} を確立する。
この研究は、適応指向認識を真に一般化された高性能なMERシステムを開発するための重要なパラダイムとして強調する。
関連論文リスト
- Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism [0.0]
画像前処理のための2段階変換手法であるミドルポイント正規化(MPN)を導入する。
分類パイプラインは、例外的なクラスバランスを維持しながら、93%の精度を達成する。
セグメンテーションタスクでは,MPNを付加した入力を用いて,U-Netアーキテクチャ内の同一の注意ブロックをシームレスに統合する。
論文 参考訳(メタデータ) (2025-05-27T15:14:04Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models [80.90808879991182]
体系的な分析に基づいて、スケッチ理解のための基礎モデルの2つの基本的な限界を明らかにする。
SDとCLIPを戦略的に組み合わせることで,これらの制約に対処する。
CLIPの機能をSDのデノナイズプロセスに動的に注入し,セマンティックレベルでの機能を適応的に集約することにより,スケッチ検索における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-18T10:47:46Z) - Representation Learning and Identity Adversarial Training for Facial Behavior Understanding [3.350769246260559]
AU検出の基本的な要素として,多種多様データと大規模データと主観的同一性正則化の2つを再検討する。
Face9M上でのマスク付きオートエンコーダの事前トレーニングは、AU検出と表情タスクにおいて強いパフォーマンスをもたらす。
提案手法であるFMAE(Facial Masked Autoencoder)とIATは単純で汎用的で効果的である。
論文 参考訳(メタデータ) (2024-07-15T21:13:28Z) - MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。
本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。
MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T08:57:23Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - A Mixture of Exemplars Approach for Efficient Out-of-Distribution Detection with Foundation Models [0.0]
本稿では, 高品質で凍結, 事前訓練された基礎モデルを用いて, トレーニングの利点を最大化するためのOOD検出への効率的なアプローチを提案する。
MoLARは、OODの例と例の類似性だけを比較すると、強力なOODパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-11-28T06:12:28Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - GaitMAST: Motion-Aware Spatio-Temporal Feature Learning Network for
Cross-View Gait Recognition [32.76653659564304]
動作認識機能の可能性を解き放つGaitMASTを提案する。
GitMASTは個人のユニークなウォーキングパターンをよく保存する。
平均ランク1の精度は98.1%である。
論文 参考訳(メタデータ) (2022-10-21T08:42:00Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。