論文の概要: FaceSleuth-R: Adaptive Orientation-Aware Attention for Robust Micro-Expression Recognition
- arxiv url: http://arxiv.org/abs/2506.02695v3
- Date: Sat, 08 Nov 2025 07:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.356942
- Title: FaceSleuth-R: Adaptive Orientation-Aware Attention for Robust Micro-Expression Recognition
- Title(参考訳): FaceSleuth-R:ロバストなマイクロ圧縮認識のための適応指向認識
- Authors: Linquan Wu, Tianxiang Jiang, Haoyu Yang, Wenhao Duan, Shaochao Lin, Zixuan Wang, Yini Fang, Jacky Keung,
- Abstract要約: textbfFaceSleuth-Rは、新しい textbfSingle-Orientation Attention (SOA) モジュールを中心にしたフレームワークです。
SOAは軽量で差別化可能な演算子で、ネットワークが層固有の最適方向を学習できるようにする。
私たちは、SOAが様々なデータセットにまたがる、普遍的なニアバーティカルな動きを常に発見していることを示します。
- 参考スコア(独自算出の注目度): 25.77351512351652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Micro-expression recognition (MER) has achieved impressive accuracy in controlled laboratory settings. However, its real-world applicability faces a significant generalization cliff, severely hindering practical deployment due to poor performance on unseen data and susceptibility to domain shifts. Existing attention mechanisms often overfit to dataset-specific appearance cues or rely on fixed spatial priors, making them fragile in diverse environments. We posit that robust MER requires focusing on quasi-invariant motion orientations inherent to micro-expressions, rather than superficial pixel-level features. To this end, we introduce \textbf{FaceSleuth-R}, a framework centered on our novel \textbf{Single-Orientation Attention (SOA)} module. SOA is a lightweight, differentiable operator that enables the network to learn layer-specific optimal orientations, effectively guiding attention towards these robust motion cues. Through extensive experiments, we demonstrate that SOA consistently discovers a universal near-vertical motion prior across diverse datasets. More critically, FaceSleuth-R showcases superior generalization in rigorous Leave-One-Dataset-Out (LODO) protocols, significantly outperforming baselines and state-of-the-art methods when confronted with domain shifts. Furthermore, our approach establishes \textbf{state-of-the-art results} across several benchmarks. This work highlights adaptive orientation-aware attention as a key paradigm for developing truly generalized and high-performing MER systems.
- Abstract(参考訳): マイクロ圧縮認識 (MER) は, 制御された実験室設定において顕著な精度を達成している。
しかし、実世界の適用性は大きな一般化の崖に面しており、目に見えないデータのパフォーマンスが悪く、ドメインシフトへの感受性が低いため、実践的なデプロイメントを著しく妨げている。
既存の注意機構は、しばしばデータセット固有の外観に過度に適合するか、固定された空間的事前に依存するため、多様な環境において脆弱である。
我々は,ロバストなMERは,表面画素レベルの特徴ではなく,マイクロ表現に固有の準不変な動き方向に着目する必要があると仮定する。
この目的のために、我々は、新しい \textbf{Single-Orientation Attention (SOA) モジュールを中心としたフレームワークである \textbf{FaceSleuth-R} を紹介します。
SOAは軽量で差別化可能な演算子で、ネットワークは層固有の最適方向を学習し、これらの堅牢な動きの手がかりに効果的に注意を向けることができます。
広範な実験を通じて、SOAはさまざまなデータセットにまたがる、普遍的なニアバーティカルな動きを常に発見していることを実証します。
さらに重要なことは、FaceSleuth-Rは厳格なLeave-One-Dataset-Out(LODO)プロトコルにおける優れた一般化を示し、ドメインシフトに直面すると、ベースラインと最先端メソッドを著しく上回っている。
さらに, 提案手法は, いくつかのベンチマークにおいて, <textbf{state-of-the-art results} を確立する。
この研究は、適応指向認識を真に一般化された高性能なMERシステムを開発するための重要なパラダイムとして強調する。
関連論文リスト
- Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Improving Micro-Expression Recognition with Phase-Aware Temporal Augmentation [0.0]
マイクロ・エクスプレッション(ME)は、半秒未満の真の感情を示す、簡潔で不随意的な顔の動きである。
深層学習は、マイクロ圧縮認識(MER)に大きな進歩をもたらしたが、その効果は、注釈付きMEデータセットの不足によって制限されている。
本稿では動的画像に基づく位相認識時間拡張法を提案する。
論文 参考訳(メタデータ) (2025-10-17T09:20:51Z) - Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。
粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。
また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文 参考訳(メタデータ) (2025-08-25T14:22:57Z) - DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。
我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-06-23T02:38:56Z) - CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。
このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。
テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:31:08Z) - Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism [0.0]
画像前処理のための2段階変換手法であるミドルポイント正規化(MPN)を導入する。
分類パイプラインは、例外的なクラスバランスを維持しながら、93%の精度を達成する。
セグメンテーションタスクでは,MPNを付加した入力を用いて,U-Netアーキテクチャ内の同一の注意ブロックをシームレスに統合する。
論文 参考訳(メタデータ) (2025-05-27T15:14:04Z) - DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models [5.027492394254859]
DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。
一般化を強化するために2つの補完正則化戦略を統合する。
さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-26T00:14:52Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models [80.90808879991182]
体系的な分析に基づいて、スケッチ理解のための基礎モデルの2つの基本的な限界を明らかにする。
SDとCLIPを戦略的に組み合わせることで,これらの制約に対処する。
CLIPの機能をSDのデノナイズプロセスに動的に注入し,セマンティックレベルでの機能を適応的に集約することにより,スケッチ検索における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-18T10:47:46Z) - Representation Learning and Identity Adversarial Training for Facial Behavior Understanding [3.350769246260559]
AU検出の基本的な要素として,多種多様データと大規模データと主観的同一性正則化の2つを再検討する。
Face9M上でのマスク付きオートエンコーダの事前トレーニングは、AU検出と表情タスクにおいて強いパフォーマンスをもたらす。
提案手法であるFMAE(Facial Masked Autoencoder)とIATは単純で汎用的で効果的である。
論文 参考訳(メタデータ) (2024-07-15T21:13:28Z) - Toward Motion Robustness: A masked attention regularization framework in remote photoplethysmography [5.743550396843244]
MAR-rはROIローカライゼーションと複雑なモーションアーティファクトの影響を統合するフレームワークである。
MAR-rは、顔クリップのセマンティック一貫性を捉えるために、マスクされた注意規則化機構をrフィールドに採用している。
また、モデルが不正確なROIに過度に適合し、その後パフォーマンスが低下するのを防ぐために、マスキング技術を採用している。
論文 参考訳(メタデータ) (2024-07-09T08:25:30Z) - MLAE: Masked LoRA Experts for Visual Parameter-Efficient Fine-Tuning [45.93128932828256]
Masked LoRA Experts (MLAE) は、視覚的PEFTにマスキングの概念を適用する革新的なアプローチである。
本手法は,低ランク行列を独立したランク1サブマトリクスに変換するセル分解戦略を組み込んだものである。
MLAEは,VTAB-1kベンチマークでは平均78.8%,FGVCベンチマークでは90.9%の精度で,新しい最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T08:57:23Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - A Mixture of Exemplars Approach for Efficient Out-of-Distribution Detection with Foundation Models [0.0]
本稿では, 高品質で凍結, 事前訓練された基礎モデルを用いて, トレーニングの利点を最大化するためのOOD検出への効率的なアプローチを提案する。
MoLARは、OODの例と例の類似性だけを比較すると、強力なOODパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-11-28T06:12:28Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - GaitMAST: Motion-Aware Spatio-Temporal Feature Learning Network for
Cross-View Gait Recognition [32.76653659564304]
動作認識機能の可能性を解き放つGaitMASTを提案する。
GitMASTは個人のユニークなウォーキングパターンをよく保存する。
平均ランク1の精度は98.1%である。
論文 参考訳(メタデータ) (2022-10-21T08:42:00Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Adaptive Normalized Representation Learning for Generalizable Face
Anti-Spoofing [45.37463812739095]
ドメイン一般化(DG)に基づく対面反偽造(FAS)は、その堅牢性から注目されている。
本稿では,特徴抽出プロセスにおける正規化選択に着目した顔アンチスプーフィングの新たな視点を提案する。
論文 参考訳(メタデータ) (2021-08-05T15:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。