Fugu-MT 論文翻訳(概要): Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

論文の概要: Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

arxiv url: http://arxiv.org/abs/2503.10603v1
Date: Thu, 13 Mar 2025 17:46:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.805446
Title: Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation
Title（参考訳）: 動的特徴融合を用いた2段階クロスモーダルネットワークによる感情的ミミリー強度推定
Authors: Jun Yu, Lingsi Zhu, Yanjun Chi, Yunxiang Zhang, Yang Zheng, Yongqi Wang, Xilong Lu,
Abstract要約: Emotional Mimicry Intensity Estimationは、人間の社会的行動を理解し、人間とコンピュータの相互作用体験を強化するための重要な技術である。本稿では,動的相関モデリングとマルチモーダル時間信号のロバスト融合のための2段階クロスモーダルアライメントフレームワークを提案する。 Hume-Vidmimic2データセットの実験結果から,6つの感情次元の平均ピアソン相関係数0.35が得られた。
参考スコア（独自算出の注目度）: 10.741278852581646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotional Mimicry Intensity (EMI) estimation serves as a critical technology for understanding human social behavior and enhancing human-computer interaction experiences, where the core challenge lies in dynamic correlation modeling and robust fusion of multimodal temporal signals. To address the limitations of existing methods in insufficient exploitation of modal synergistic effects, noise sensitivity, and limited fine-grained alignment capabilities, this paper proposes a dual-stage cross-modal alignment framework. First, we construct vision-text and audio-text contrastive learning networks based on an improved CLIP architecture, achieving preliminary alignment in the feature space through modality-decoupled pre-training. Subsequently, we design a temporal-aware dynamic fusion module that combines Temporal Convolutional Networks (TCN) and gated bidirectional LSTM to respectively capture the macro-evolution patterns of facial expressions and local dynamics of acoustic features. Innovatively, we introduce a quality-guided modality fusion strategy that enables modality compensation under occlusion and noisy scenarios through differentiable weight allocation. Experimental results on the Hume-Vidmimic2 dataset demonstrate that our method achieves an average Pearson correlation coefficient of 0.35 across six emotion dimensions, outperforming the best baseline by 40\%. Ablation studies further validate the effectiveness of the dual-stage training strategy and dynamic fusion mechanism, providing a novel technical pathway for fine-grained emotion analysis in open environments.
Abstract（参考訳）: Emotional Mimicry Intensity (EMI) 推定は、人間の社会的行動を理解し、人間とコンピュータの相互作用体験を強化するための重要な技術であり、その中心となる課題は動的相関モデリングとマルチモーダル時間信号の堅牢な融合にある。モーダル・シナジスティック・エフェクト,ノイズ感度,微粒化機能に乏しい既存手法の限界に対処するため,両段階のクロスモーダルアライメント・フレームワークを提案する。まず、改良されたCLIPアーキテクチャに基づいて、視覚テキストと音声テキストのコントラスト学習ネットワークを構築し、モダリティを分離した事前学習によって特徴空間の予備的なアライメントを実現する。その後、時間的畳み込みネットワーク(TCN)と有声双方向LSTMを組み合わせた時間的動的融合モジュールを設計し、表情のマクロ進化パターンと音響特性の局所的ダイナミクスをそれぞれ捉える。提案手法は,主観的および雑音的シナリオ下でのモダリティ補償を,微分可能な重み付けによる品質誘導型モダリティ融合戦略を提案する。 Hume-Vidmimic2データセットを用いた実験の結果,6つの感情次元に対して平均ピアソン相関係数0.35を達成し,最高のベースラインを40%上回る結果を得た。アブレーション研究は、二重ステージトレーニング戦略と動的融合機構の有効性をさらに検証し、オープン環境における微粒な感情分析のための新しい技術経路を提供する。

関連論文リスト

Confidence-driven Gradient Modulation for Multimodal Human Activity Recognition: A Dynamic Contrastive Dual-Path Learning Approach [3.0868241505670198]
動的コントラストデュアルパスネットワーク(D-HAR)と呼ばれる新しいフレームワークを提案する。まず、デュアルパスの特徴抽出アーキテクチャを使用し、ResNetとDenseCDPNetが協調してマルチモーダルセンサデータを処理している。第二に、局所的な知覚から意味的抽象への進歩的なアライメントを実現するために、多段階のコントラスト学習機構を導入する。第3に、バックプロパゲーション中の各モード分岐の学習強度を動的に監視・調整する信頼性駆動型勾配変調方式を提案する。
論文参考訳（メタデータ） (2025-07-03T17:37:46Z)
DMAF-Net: An Effective Modality Rebalancing Framework for Incomplete Multi-Modal Medical Image Segmentation [7.441945494253697]
DMAF-Net(Dynamic Modality-Aware Fusion Network)と呼ばれる新しいモデルを提案する。まず、欠落したモダリティ干渉を抑制するために、動的モダリティ・アウェア・フュージョン(DMAF)モジュールを導入する。第二に、グローバルな特徴アライメントを強制するために、相乗的関係蒸留とプロトタイプ蒸留のフレームワークを設計する。第3に、不均衡な損失率で最適化を安定化するための動的トレーニングモニタリング(DTM)戦略を提案する。
論文参考訳（メタデータ） (2025-06-13T11:38:18Z)
AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。 AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T03:28:53Z)
Spiking Neural Networks with Temporal Attention-Guided Adaptive Fusion for imbalanced Multi-modal Learning [32.60363000758323]
マルチモーダルスパイクニューラルネットワーク(SNN)のための時間的注意誘導型適応融合フレームワークを提案する。提案フレームワークは,特に時間次元において適応的融合を実装し,マルチモーダル学習におけるモダリティの不均衡を軽減する。本システムは,学習可能なタイムワープ操作と,ベースラインSNNよりも高速なモーダリティ収束調整により,時間的ずれを解消する。
論文参考訳（メタデータ） (2025-05-20T15:55:11Z)
Towards Explainable Fusion and Balanced Learning in Multimodal Sentiment Analysis [14.029574339845476]
Kan-MCP は Kolmogorov-Arnold Networks (KAN) の解釈可能性と Multimodal Clean Pareto (MCPareto) フレームワークの堅牢性を統合する新しいフレームワークである。本稿では, 特徴量次元を両立・縮小するDRD-MIB法を提案する。この解釈可能性と堅牢性の相乗効果は、CMU-MOSI、CMU-MOSEI、CH-SIMS v2などのベンチマークデータセットにおいて優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-04-16T15:00:06Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
MHSA: A Multi-scale Hypergraph Network for Mild Cognitive Impairment Detection via Synchronous and Attentive Fusion [4.526574526136158]
同期核融合によるMCI検出のためのマルチスケールハイパーグラフネットワークを提案する。本手法では、関心領域のスペクトル領域における位相同期関係を計算するために、位相同期値(PLV)を用いる。 PLV係数は動的に戦略を調整し,時間スペクトル融合行列に基づいて動的ハイパーグラフをモデル化する。
論文参考訳（メタデータ） (2024-12-11T02:59:57Z)
Synesthesia of Machines (SoM)-Enhanced ISAC Precoding for Vehicular Networks with Double Dynamics [15.847713094328286]
統合センシング・通信(ISAC)技術は車載ネットワークにとって不可欠である。リアルタイムプリコーディング設計において,通信チャネルの時間変化とターゲットの迅速な移動は重要な課題となる。本稿では、位置決めやチャネル情報といったモダリティを活用してこれらのダイナミクスに適応する、SoM(SoM)強化プリコーディングのシンセサイザを提案する。
論文参考訳（メタデータ） (2024-08-24T10:35:10Z)
Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文参考訳（メタデータ） (2024-05-21T20:37:07Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。 Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文参考訳（メタデータ） (2024-03-20T15:08:43Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。 AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。 AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-12T11:48:49Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
Group Gated Fusion on Attention-based Bidirectional Alignment for Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。 LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文参考訳（メタデータ） (2022-01-17T09:46:59Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。