論文の概要: Rethinking Occlusion in FER: A Semantic-Aware Perspective and Go Beyond
- arxiv url: http://arxiv.org/abs/2507.15401v3
- Date: Thu, 24 Jul 2025 08:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 13:02:36.843836
- Title: Rethinking Occlusion in FER: A Semantic-Aware Perspective and Go Beyond
- Title(参考訳): FERにおける排除の再考: セマンティックな視点と先へ
- Authors: Huiyu Zhai, Xingxing Yang, Yalan Ye, Chenyang Li, Bin Fan, Changze Li,
- Abstract要約: 顔の閉塞を曖昧にするための補助的マルチモーダル・セマンティックガイダンスを導入したORSANetを提案する。
また,性差や性差などの内在性雑音を緩和するために,顔のランドマークをスパース幾何学として導入する。
提案するORSANetは,SOTA認識性能を実現する。
- 参考スコア(独自算出の注目度): 10.015531203047598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expression recognition (FER) is a challenging task due to pervasive occlusion and dataset biases. Especially when facial information is partially occluded, existing FER models struggle to extract effective facial features, leading to inaccurate classifications. In response, we present ORSANet, which introduces the following three key contributions: First, we introduce auxiliary multi-modal semantic guidance to disambiguate facial occlusion and learn high-level semantic knowledge, which is two-fold: 1) we introduce semantic segmentation maps as dense semantics prior to generate semantics-enhanced facial representations; 2) we introduce facial landmarks as sparse geometric prior to mitigate intrinsic noises in FER, such as identity and gender biases. Second, to facilitate the effective incorporation of these two multi-modal priors, we customize a Multi-scale Cross-interaction Module (MCM) to adaptively fuse the landmark feature and semantics-enhanced representations within different scales. Third, we design a Dynamic Adversarial Repulsion Enhancement Loss (DARELoss) that dynamically adjusts the margins of ambiguous classes, further enhancing the model's ability to distinguish similar expressions. We further construct the first occlusion-oriented FER dataset to facilitate specialized robustness analysis on various real-world occlusion conditions, dubbed Occlu-FER. Extensive experiments on both public benchmarks and Occlu-FER demonstrate that our proposed ORSANet achieves SOTA recognition performance. Code is publicly available at https://github.com/Wenyuzhy/ORSANet-master.
- Abstract(参考訳): 顔表情認識(FER)は、広汎な閉塞とデータセットバイアスによる課題である。
特に顔情報が部分的に隠されている場合、既存のFERモデルは効果的な顔の特徴を抽出するのに苦労し、不正確な分類につながる。
まず、顔の隠蔽を曖昧にするための補助的マルチモーダル・セマンティックガイダンスを導入し、高いレベルのセマンティック知識を学習する。
1) セマンティック・セグメンテーション・マップを, セマンティックスを付加した顔表現を生成する前に, セマンティック・セマンティックスとして導入する。
2) 顔のランドマークは, 性差や性差など, FERの内在性雑音を軽減するために, まばらな幾何学的特徴として導入する。
第二に、これらの2つのマルチモーダル前処理を効果的に組み込むために、異なるスケールでランドマークの特徴とセマンティクスが強化された表現を適応的に融合させるために、MCM(Multi-scale Cross-Interaction Module)をカスタマイズする。
第3に、曖昧なクラスのマージンを動的に調整し、類似した表現を識別する能力を高める動的逆反発強化損失(DARELoss)を設計する。
さらに,Occlu-FERと呼ばれる,様々な現実世界の閉塞条件に対する特殊ロバスト性解析を容易にするために,最初の閉塞指向FERデータセットを構築した。
公開ベンチマークとOcclu-FERの両方での大規模な実験により,提案するORSANetがSOTA認識性能を達成できることが実証された。
コードはhttps://github.com/Wenyuzhy/ORSANet-masterで公開されている。
関連論文リスト
- CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.15827818829865]
2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。
CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。
我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文 参考訳(メタデータ) (2025-05-26T19:09:33Z) - IPSeg: Image Posterior Mitigates Semantic Drift in Class-Incremental Segmentation [77.06177202334398]
CISSにおけるセマンティックドリフトとデグレード性能に寄与する2つの重要な課題を特定した。
まず、モデルの異なる部分が異なる漸進的な段階に最適化されるという、別々の最適化の問題を強調します。
第二に、不適切な擬似ラベルから生じる雑音のセマンティクスを同定し、その結果、準最適結果が得られる。
論文 参考訳(メタデータ) (2025-02-07T12:19:37Z) - FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - Dual-modal Prior Semantic Guided Infrared and Visible Image Fusion for Intelligent Transportation System [22.331591533400402]
インテリジェントトランスポートシステム(ITS)における赤外線および可視画像融合(IVF)の役割
本稿では,2つのモーダリティ戦略に基づく先行的意味誘導画像融合法を提案する。
論文 参考訳(メタデータ) (2024-03-24T16:41:50Z) - OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language Foundation Models for 3D Semantic Understanding [9.25233177676278]
OV-NeRFは、事前訓練されたビジョンと言語基盤モデルのポテンシャルを利用して、セマンティックフィールド学習を強化する。
提案手法は, Replica と ScanNet の mIoU 測定値において, 20.31% と 18.42% の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-02-07T08:19:57Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - Denoising Diffusion Semantic Segmentation with Mask Prior Modeling [61.73352242029671]
本稿では,従来の識別的アプローチのセマンティックセグメンテーション品質を,デノナイズ拡散生成モデルでモデル化したマスクを用いて改善することを提案する。
市販セグメンタを用いた先行モデルの評価を行い,ADE20KとCityscapesの実験結果から,本手法が競争力のある定量的性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:47:01Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z) - Disentanglement for Discriminative Visual Recognition [7.954325638519141]
この章では、有害な要因を、タスク関連/非関連なセマンティックなバリエーションと、特定されていない潜伏的なバリエーションとして体系的に要約する。
統合された2つの完全に接続されたレイヤブランチフレームワークにおいて、ディープメトリックロスとソフトマックスロスを組み合わせることで、より優れたFER性能を実現することができる。
このフレームワークは、照明、化粧、変装耐性顔認証、顔属性認識など、一連のタスクにおいて最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T06:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。