論文の概要: Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation
- arxiv url: http://arxiv.org/abs/2503.10603v1
- Date: Thu, 13 Mar 2025 17:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:35.418360
- Title: Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation
- Title(参考訳): 動的特徴融合を用いた2段階クロスモーダルネットワークによる感情的ミミリー強度推定
- Authors: Jun Yu, Lingsi Zhu, Yanjun Chi, Yunxiang Zhang, Yang Zheng, Yongqi Wang, Xilong Lu,
- Abstract要約: Emotional Mimicry Intensity Estimationは、人間の社会的行動を理解し、人間とコンピュータの相互作用体験を強化するための重要な技術である。
本稿では,動的相関モデリングとマルチモーダル時間信号のロバスト融合のための2段階クロスモーダルアライメントフレームワークを提案する。
Hume-Vidmimic2データセットの実験結果から,6つの感情次元の平均ピアソン相関係数0.35が得られた。
- 参考スコア(独自算出の注目度): 10.741278852581646
- License:
- Abstract: Emotional Mimicry Intensity (EMI) estimation serves as a critical technology for understanding human social behavior and enhancing human-computer interaction experiences, where the core challenge lies in dynamic correlation modeling and robust fusion of multimodal temporal signals. To address the limitations of existing methods in insufficient exploitation of modal synergistic effects, noise sensitivity, and limited fine-grained alignment capabilities, this paper proposes a dual-stage cross-modal alignment framework. First, we construct vision-text and audio-text contrastive learning networks based on an improved CLIP architecture, achieving preliminary alignment in the feature space through modality-decoupled pre-training. Subsequently, we design a temporal-aware dynamic fusion module that combines Temporal Convolutional Networks (TCN) and gated bidirectional LSTM to respectively capture the macro-evolution patterns of facial expressions and local dynamics of acoustic features. Innovatively, we introduce a quality-guided modality fusion strategy that enables modality compensation under occlusion and noisy scenarios through differentiable weight allocation. Experimental results on the Hume-Vidmimic2 dataset demonstrate that our method achieves an average Pearson correlation coefficient of 0.35 across six emotion dimensions, outperforming the best baseline by 40\%. Ablation studies further validate the effectiveness of the dual-stage training strategy and dynamic fusion mechanism, providing a novel technical pathway for fine-grained emotion analysis in open environments.
- Abstract(参考訳): Emotional Mimicry Intensity (EMI) 推定は、人間の社会的行動を理解し、人間とコンピュータの相互作用体験を強化するための重要な技術であり、その中心となる課題は動的相関モデリングとマルチモーダル時間信号の堅牢な融合にある。
モーダル・シナジスティック・エフェクト,ノイズ感度,微粒化機能に乏しい既存手法の限界に対処するため,両段階のクロスモーダルアライメント・フレームワークを提案する。
まず、改良されたCLIPアーキテクチャに基づいて、視覚テキストと音声テキストのコントラスト学習ネットワークを構築し、モダリティを分離した事前学習によって特徴空間の予備的なアライメントを実現する。
その後、時間的畳み込みネットワーク(TCN)と有声双方向LSTMを組み合わせた時間的動的融合モジュールを設計し、表情のマクロ進化パターンと音響特性の局所的ダイナミクスをそれぞれ捉える。
提案手法は,主観的および雑音的シナリオ下でのモダリティ補償を,微分可能な重み付けによる品質誘導型モダリティ融合戦略を提案する。
Hume-Vidmimic2データセットを用いた実験の結果,6つの感情次元に対して平均ピアソン相関係数0.35を達成し,最高のベースラインを40%上回る結果を得た。
アブレーション研究は、二重ステージトレーニング戦略と動的融合機構の有効性をさらに検証し、オープン環境における微粒な感情分析のための新しい技術経路を提供する。
関連論文リスト
- MHSA: A Multi-scale Hypergraph Network for Mild Cognitive Impairment Detection via Synchronous and Attentive Fusion [4.526574526136158]
同期核融合によるMCI検出のためのマルチスケールハイパーグラフネットワークを提案する。
本手法では、関心領域のスペクトル領域における位相同期関係を計算するために、位相同期値(PLV)を用いる。
PLV係数は動的に戦略を調整し,時間スペクトル融合行列に基づいて動的ハイパーグラフをモデル化する。
論文 参考訳(メタデータ) (2024-12-11T02:59:57Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。
特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。
Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文 参考訳(メタデータ) (2024-03-20T15:08:43Z) - Unimodal Multi-Task Fusion for Emotional Mimicry Intensity Prediction [6.1058750788332325]
第6回ワークショップおよび感情行動分析コンペティションの一環として,情緒的不安度(EMI)を評価するための新しい方法論を紹介した。
我々の手法は、広範囲なポッドキャストデータセットで事前トレーニングされたWav2Vec 2.0アーキテクチャを活用している。
我々は,個々の特徴をグローバル平均ベクトルと組み合わせた融合手法を用いて特徴抽出プロセスを洗練する。
論文 参考訳(メタデータ) (2024-03-18T15:32:02Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Recursive Joint Attention for Audio-Visual Fusion in Regression based
Emotion Recognition [15.643176705932396]
映像に基づく感情認識では、音声(A)と視覚(V)の相補的関係を活用することが重要である。
本稿では,AとVの相補的な性質を利用する可能性について,共同配置モデルを用いて検討する。
我々のモデルは、AとVの融合において、モーダル内関係とモーダル間関係の両方を効率的に利用することができる。
論文 参考訳(メタデータ) (2023-04-17T02:57:39Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。