論文の概要: Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild
- arxiv url: http://arxiv.org/abs/2412.13168v1
- Date: Tue, 17 Dec 2024 18:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:17.761636
- Title: Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild
- Title(参考訳): 野生における感情関連顔面動態のリフティング・スキームによるインシシトな絡み合い
- Authors: Xingjian Wang, Li Chai,
- Abstract要約: IFDD(Implicit Facial Dynamics Disentanglement framework)を提案する。
IFDDは感情に無関係な世界的文脈から感情に関連する動的情報を暗黙的に切り離す。
In-the-wildデータセットの実験では、IFDDが以前の教師付きDFER法より優れていることが示されている。
- 参考スコア(独自算出の注目度): 3.3905929183808796
- License:
- Abstract: In-the-wild Dynamic facial expression recognition (DFER) encounters a significant challenge in recognizing emotion-related expressions, which are often temporally and spatially diluted by emotion-irrelevant expressions and global context respectively. Most of the prior DFER methods model tightly coupled spatiotemporal representations which may incorporate weakly relevant features, leading to information redundancy and emotion-irrelevant context bias. Several DFER methods have highlighted the significance of dynamic information, but utilize explicit manners to extract dynamic features with overly strong prior knowledge. In this paper, we propose a novel Implicit Facial Dynamics Disentanglement framework (IFDD). Through expanding wavelet lifting scheme to fully learnable framework, IFDD disentangles emotion-related dynamic information from emotion-irrelevant global context in an implicit manner, i.e., without exploit operations and external guidance. The disentanglement process of IFDD contains two stages, i.e., Inter-frame Static-dynamic Splitting Module (ISSM) for rough disentanglement estimation and Lifting-based Aggregation-Disentanglement Module (LADM) for further refinement. Specifically, ISSM explores inter-frame correlation to generate content-aware splitting indexes on-the-fly. We preliminarily utilize these indexes to split frame features into two groups, one with greater global similarity, and the other with more unique dynamic features. Subsequently, LADM first aggregates these two groups of features to obtain fine-grained global context features by an updater, and then disentangles emotion-related facial dynamic features from the global context by a predictor. Extensive experiments on in-the-wild datasets have demonstrated that IFDD outperforms prior supervised DFER methods with higher recognition accuracy and comparable efficiency.
- Abstract(参考訳): 動的表情認識(DFER)は感情関連表現の認識において重要な課題に遭遇し、感情関連表現と世界的文脈によって時間的・空間的に希釈されることが多い。
従来のDFER手法のほとんどは、弱い関係のある特徴を組み込んだ密結合時空間表現をモデル化し、情報冗長性と感情非関連文脈バイアスをもたらす。
いくつかのDFER法は、動的情報の重要性を強調しているが、明示的な方法を用いて、過度に強い事前知識を持つ動的な特徴を抽出している。
本稿では,IFDD(Implicit Facial Dynamics Disentanglement framework)を提案する。
完全学習可能なフレームワークにウェーブレットリフトスキームを拡張することにより、IFDDは感情に関連のないグローバルコンテキストから、操作や外部ガイダンスを使わずに、暗黙の方法で感情関連の動的情報を解き放つ。
IFDDの解離過程は、ラフな解離推定のためのフレーム間静的分割モジュール (ISSM) と、さらなる改良のためのリフティングに基づく解離解離解離モジュール (LADM) の2段階を含む。
具体的には、ISSMはフレーム間の相関を調べ、コンテンツ認識スプリットインデックスをオンザフライで生成する。
予めこれらの指標を用いてフレーム特徴を2つのグループに分割し,その1つはより大域的類似性を持つもので,もう1つはより特異な動的特徴を持つものである。
その後、LADMはまずこれらの2つの特徴グループを集約し、更新器によって細粒度のグローバルなコンテキスト特徴を取得し、それから予測器によってグローバルなコンテキストから感情に関連した顔の動的特徴をアンハングリングする。
In-the-wildデータセットの大規模な実験により、IFDDは、より高い認識精度と同等の効率で、教師付きDFERメソッドよりも優れた性能を示すことが示された。
関連論文リスト
- Zero-Shot Interactive Text-to-Image Retrieval via Diffusion-Augmented Representations [7.439049772394586]
Diffusion Augmented Retrieval (DAR)はMLLMの微調整を完全に回避したパラダイムシフトフレームワークである。
DARは、Diffusion Model (DM) ベースの視覚合成を用いて、LLM(Large Language Model) 誘導クエリ改善をシナジし、文脈的にリッチな中間表現を生成する。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Spatio-Temporal Fuzzy-oriented Multi-Modal Meta-Learning for Fine-grained Emotion Recognition [26.882865792905754]
細粒度感情認識(FER)は、疾患診断、パーソナライズされたレコメンデーション、マルチメディアマイニングなど、様々な分野で重要な役割を果たしている。
既存のFERメソッドは、現実の応用において3つの重要な課題に直面している: (i) 感情は複雑で時間を要するため正確性を確保するために、大量の注釈付きデータに依存している; (ii) サンプリング期間内の時間的相関が同じであると仮定するため、感情パターンの変化に起因する時間的不均一性を捉えることができない; (iii) 異なるFERシナリオの空間的不均一性、すなわち、感情の分布を考慮しない。
論文 参考訳(メタデータ) (2024-12-18T06:40:53Z) - Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data [83.48170683672427]
本稿では,DFERの補完リソースとしてSFERデータを統合した統合型デュアルモーダル学習フレームワークを提案する。
S4Dは、共有トランスフォーマー(ViT)エンコーダデコーダアーキテクチャを用いて、顔画像とビデオに対して、デュアルモーダルな自己教師付き事前トレーニングを採用する。
実験により、S4DはDFERをより深く理解し、新しい最先端のパフォーマンスを設定できることが示された。
論文 参考訳(メタデータ) (2024-09-10T01:57:57Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in
Dynamic Environments [6.5121327691369615]
動的環境を扱う最初の教師付き学習ベースVO法であるDytanVOを提案する。
実世界の動的環境における最先端VOソリューションよりも平均27.7%向上した。
論文 参考訳(メタデータ) (2022-09-17T23:56:03Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。