論文の概要: Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild
- arxiv url: http://arxiv.org/abs/2412.13168v2
- Date: Wed, 18 Dec 2024 09:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:25:21.109305
- Title: Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild
- Title(参考訳): 野生における感情関連顔面動態のリフティング・スキームによるインシシトな絡み合い
- Authors: Xingjian Wang, Li Chai,
- Abstract要約: In-the-the-wild dynamic expression Recognition (DFER)は、感情に関連する表情を認識する上で重要な課題に遭遇する。
IFDD(Implicit Facial Dynamics Disentanglement framework)を提案する。
IFDDは感情に無関係な世界的文脈から感情に関連する動的情報を暗黙的に切り離す。
- 参考スコア(独自算出の注目度): 3.3905929183808796
- License:
- Abstract: In-the-wild dynamic facial expression recognition (DFER) encounters a significant challenge in recognizing emotion-related expressions, which are often temporally and spatially diluted by emotion-irrelevant expressions and global context. Most prior DFER methods directly utilize coupled spatiotemporal representations that may incorporate weakly relevant features with emotion-irrelevant context bias. Several DFER methods highlight dynamic information for DFER, but following explicit guidance that may be vulnerable to irrelevant motion. In this paper, we propose a novel Implicit Facial Dynamics Disentanglement framework (IFDD). Through expanding wavelet lifting scheme to fully learnable framework, IFDD disentangles emotion-related dynamic information from emotion-irrelevant global context in an implicit manner, i.e., without exploit operations and external guidance. The disentanglement process contains two stages. The first is Inter-frame Static-dynamic Splitting Module (ISSM) for rough disentanglement estimation, which explores inter-frame correlation to generate content-aware splitting indexes on-the-fly. We utilize these indexes to split frame features into two groups, one with greater global similarity, and the other with more unique dynamic features. The second stage is Lifting-based Aggregation-Disentanglement Module (LADM) for further refinement. LADM first aggregates two groups of features from ISSM to obtain fine-grained global context features by an updater, and then disentangles emotion-related facial dynamic features from the global context by a predictor. Extensive experiments on in-the-wild datasets have demonstrated that IFDD outperforms prior supervised DFER methods with higher recognition accuracy and comparable efficiency. Code is available at https://github.com/CyberPegasus/IFDD.
- Abstract(参考訳): In-the-the-wild dynamic expression Recognition (DFER) は感情関連表現の認識において重要な課題に遭遇する。
従来のほとんどのDFER法は、感情非関連文脈バイアスと弱い関係のある特徴を組み込んだ時空間表現を直接利用していた。
いくつかのDFERメソッドは、DFERの動的情報をハイライトするが、無関係な動きに対して脆弱な明示的なガイダンスに従う。
本稿では,IFDD(Implicit Facial Dynamics Disentanglement framework)を提案する。
完全学習可能なフレームワークにウェーブレットリフトスキームを拡張することにより、IFDDは感情に関連のないグローバルコンテキストから、操作や外部ガイダンスを使わずに、暗黙の方法で感情関連の動的情報を解き放つ。
解離過程は、2つの段階を含む。
1つ目はフレーム間静的スプリッティングモジュール(ISSM)で、フレーム間の相関を探索し、コンテンツ認識スプリッティングインデックスをオンザフライで生成する。
これらの指標を用いて、フレームの特徴をより大域的な類似性を持つグループと、よりユニークな動的な特徴を持つグループに分割する。
第2段階は、さらなる改良のために、LiftingベースのAggregation-Disentanglement Module (LADM) である。
LADMはまずISSMの2つの特徴を集約し、更新器によって細粒度のグローバルな文脈特徴を得る。
In-the-wildデータセットの大規模な実験により、IFDDは、より高い認識精度と同等の効率で、教師付きDFERメソッドよりも優れた性能を示すことが示された。
コードはhttps://github.com/CyberPegasus/IFDD.comで入手できる。
関連論文リスト
- Zero-Shot Interactive Text-to-Image Retrieval via Diffusion-Augmented Representations [7.439049772394586]
Diffusion Augmented Retrieval (DAR)はMLLMの微調整を完全に回避したパラダイムシフトフレームワークである。
DARは、Diffusion Model (DM) ベースの視覚合成を用いて、LLM(Large Language Model) 誘導クエリ改善をシナジし、文脈的にリッチな中間表現を生成する。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Spatio-Temporal Fuzzy-oriented Multi-Modal Meta-Learning for Fine-grained Emotion Recognition [26.882865792905754]
細粒度感情認識(FER)は、疾患診断、パーソナライズされたレコメンデーション、マルチメディアマイニングなど、様々な分野で重要な役割を果たしている。
既存のFERメソッドは、現実の応用において3つの重要な課題に直面している: (i) 感情は複雑で時間を要するため正確性を確保するために、大量の注釈付きデータに依存している; (ii) サンプリング期間内の時間的相関が同じであると仮定するため、感情パターンの変化に起因する時間的不均一性を捉えることができない; (iii) 異なるFERシナリオの空間的不均一性、すなわち、感情の分布を考慮しない。
論文 参考訳(メタデータ) (2024-12-18T06:40:53Z) - Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data [83.48170683672427]
本稿では,DFERの補完リソースとしてSFERデータを統合した統合型デュアルモーダル学習フレームワークを提案する。
S4Dは、共有トランスフォーマー(ViT)エンコーダデコーダアーキテクチャを用いて、顔画像とビデオに対して、デュアルモーダルな自己教師付き事前トレーニングを採用する。
実験により、S4DはDFERをより深く理解し、新しい最先端のパフォーマンスを設定できることが示された。
論文 参考訳(メタデータ) (2024-09-10T01:57:57Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in
Dynamic Environments [6.5121327691369615]
動的環境を扱う最初の教師付き学習ベースVO法であるDytanVOを提案する。
実世界の動的環境における最先端VOソリューションよりも平均27.7%向上した。
論文 参考訳(メタデータ) (2022-09-17T23:56:03Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。