論文の概要: Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation
- arxiv url: http://arxiv.org/abs/2503.10603v1
- Date: Thu, 13 Mar 2025 17:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 21:36:22.805446
- Title: Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation
- Title(参考訳): 動的特徴融合を用いた2段階クロスモーダルネットワークによる感情的ミミリー強度推定
- Authors: Jun Yu, Lingsi Zhu, Yanjun Chi, Yunxiang Zhang, Yang Zheng, Yongqi Wang, Xilong Lu,
- Abstract要約: Emotional Mimicry Intensity Estimationは、人間の社会的行動を理解し、人間とコンピュータの相互作用体験を強化するための重要な技術である。
本稿では,動的相関モデリングとマルチモーダル時間信号のロバスト融合のための2段階クロスモーダルアライメントフレームワークを提案する。
Hume-Vidmimic2データセットの実験結果から,6つの感情次元の平均ピアソン相関係数0.35が得られた。
- 参考スコア(独自算出の注目度): 10.741278852581646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional Mimicry Intensity (EMI) estimation serves as a critical technology for understanding human social behavior and enhancing human-computer interaction experiences, where the core challenge lies in dynamic correlation modeling and robust fusion of multimodal temporal signals. To address the limitations of existing methods in insufficient exploitation of modal synergistic effects, noise sensitivity, and limited fine-grained alignment capabilities, this paper proposes a dual-stage cross-modal alignment framework. First, we construct vision-text and audio-text contrastive learning networks based on an improved CLIP architecture, achieving preliminary alignment in the feature space through modality-decoupled pre-training. Subsequently, we design a temporal-aware dynamic fusion module that combines Temporal Convolutional Networks (TCN) and gated bidirectional LSTM to respectively capture the macro-evolution patterns of facial expressions and local dynamics of acoustic features. Innovatively, we introduce a quality-guided modality fusion strategy that enables modality compensation under occlusion and noisy scenarios through differentiable weight allocation. Experimental results on the Hume-Vidmimic2 dataset demonstrate that our method achieves an average Pearson correlation coefficient of 0.35 across six emotion dimensions, outperforming the best baseline by 40\%. Ablation studies further validate the effectiveness of the dual-stage training strategy and dynamic fusion mechanism, providing a novel technical pathway for fine-grained emotion analysis in open environments.
- Abstract(参考訳): Emotional Mimicry Intensity (EMI) 推定は、人間の社会的行動を理解し、人間とコンピュータの相互作用体験を強化するための重要な技術であり、その中心となる課題は動的相関モデリングとマルチモーダル時間信号の堅牢な融合にある。
モーダル・シナジスティック・エフェクト,ノイズ感度,微粒化機能に乏しい既存手法の限界に対処するため,両段階のクロスモーダルアライメント・フレームワークを提案する。
まず、改良されたCLIPアーキテクチャに基づいて、視覚テキストと音声テキストのコントラスト学習ネットワークを構築し、モダリティを分離した事前学習によって特徴空間の予備的なアライメントを実現する。
その後、時間的畳み込みネットワーク(TCN)と有声双方向LSTMを組み合わせた時間的動的融合モジュールを設計し、表情のマクロ進化パターンと音響特性の局所的ダイナミクスをそれぞれ捉える。
提案手法は,主観的および雑音的シナリオ下でのモダリティ補償を,微分可能な重み付けによる品質誘導型モダリティ融合戦略を提案する。
Hume-Vidmimic2データセットを用いた実験の結果,6つの感情次元に対して平均ピアソン相関係数0.35を達成し,最高のベースラインを40%上回る結果を得た。
アブレーション研究は、二重ステージトレーニング戦略と動的融合機構の有効性をさらに検証し、オープン環境における微粒な感情分析のための新しい技術経路を提供する。
関連論文リスト
- Towards Explainable Fusion and Balanced Learning in Multimodal Sentiment Analysis [14.029574339845476]
Kan-MCP は Kolmogorov-Arnold Networks (KAN) の解釈可能性と Multimodal Clean Pareto (MCPareto) フレームワークの堅牢性を統合する新しいフレームワークである。
本稿では, 特徴量次元を両立・縮小するDRD-MIB法を提案する。
この解釈可能性と堅牢性の相乗効果は、CMU-MOSI、CMU-MOSEI、CH-SIMS v2などのベンチマークデータセットにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-04-16T15:00:06Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - MHSA: A Multi-scale Hypergraph Network for Mild Cognitive Impairment Detection via Synchronous and Attentive Fusion [4.526574526136158]
同期核融合によるMCI検出のためのマルチスケールハイパーグラフネットワークを提案する。
本手法では、関心領域のスペクトル領域における位相同期関係を計算するために、位相同期値(PLV)を用いる。
PLV係数は動的に戦略を調整し,時間スペクトル融合行列に基づいて動的ハイパーグラフをモデル化する。
論文 参考訳(メタデータ) (2024-12-11T02:59:57Z) - Synesthesia of Machines (SoM)-Enhanced ISAC Precoding for Vehicular Networks with Double Dynamics [15.847713094328286]
統合センシング・通信(ISAC)技術は車載ネットワークにとって不可欠である。
リアルタイムプリコーディング設計において,通信チャネルの時間変化とターゲットの迅速な移動は重要な課題となる。
本稿では、位置決めやチャネル情報といったモダリティを活用してこれらのダイナミクスに適応する、SoM(SoM)強化プリコーディングのシンセサイザを提案する。
論文 参考訳(メタデータ) (2024-08-24T10:35:10Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。
特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。
Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文 参考訳(メタデータ) (2024-03-20T15:08:43Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。