Fugu-MT 論文翻訳(概要): Technical Approach for the EMI Challenge in the 8th Affective Behavior Analysis in-the-Wild Competition

論文の概要: Technical Approach for the EMI Challenge in the 8th Affective Behavior Analysis in-the-Wild Competition

arxiv url: http://arxiv.org/abs/2503.10603v3
Date: Tue, 25 Mar 2025 08:46:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 19:42:58.238042
Title: Technical Approach for the EMI Challenge in the 8th Affective Behavior Analysis in-the-Wild Competition
Title（参考訳）: 第8回環境影響行動分析におけるEMIチャレンジの技術的アプローチ
Authors: Jun Yu, Lingsi Zhu, Yanjun Chi, Yunxiang Zhang, Yang Zheng, Yongqi Wang, Xilong Lu,
Abstract要約: Emotional Mimicry Intensity (EMI)の推定は、人間の社会的行動を理解し、人間とコンピュータの相互作用を促進する上で重要な役割を担っている。本稿では,既存手法の限界に対処する2段階のクロスモーダルアライメントフレームワークを提案する。 Hume-Vidmimic2データセットの実験では、6つの感情次元の平均ピアソン係数相関が0.51であるのに対し、優れた性能を示した。
参考スコア（独自算出の注目度）: 10.741278852581646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotional Mimicry Intensity (EMI) estimation plays a pivotal role in understanding human social behavior and advancing human-computer interaction. The core challenges lie in dynamic correlation modeling and robust fusion of multimodal temporal signals. To address the limitations of existing methods--insufficient exploitation of cross-modal synergies, sensitivity to noise, and constrained fine-grained alignment capabilities--this paper proposes a dual-stage cross-modal alignment framework. Stage 1 develops vision-text and audio-text contrastive learning networks based on a CLIP architecture, achieving preliminary feature-space alignment through modality-decoupled pre-training. Stage 2 introduces a temporal-aware dynamic fusion module integrating Temporal Convolutional Networks (TCN) and gated bidirectional LSTM to capture macro-evolution patterns of facial expressions and local dynamics of acoustic features, respectively. A novel quality-guided fusion strategy further enables differentiable weight allocation for modality compensation under occlusion and noise. Experiments on the Hume-Vidmimic2 dataset demonstrate superior performance with an average Pearson correlation coefficient of 0.51 across six emotion dimensions on the validate set. Remarkably, our method achieved 0.68 on the test set, securing runner-up in the EMI Challenge Track of the 8th ABAW (Affective Behavior Analysis in the Wild) Competition, offering a novel pathway for fine-grained emotion analysis in open environments.
Abstract（参考訳）: Emotional Mimicry Intensity (EMI)の推定は、人間の社会的行動を理解し、人間とコンピュータの相互作用を促進する上で重要な役割を担っている。中心となる課題は、動的相関モデリングとマルチモーダル時間信号の堅牢な融合である。既存手法の限界に対処するため, クロスモーダル・シナジーの有効利用, ノイズに対する感度, きめ細かなアライメント能力の制約を考慮し, 両段階のクロスモーダルアライメント・フレームワークを提案する。ステージ1は、CLIPアーキテクチャに基づく視覚テキストと音声テキストのコントラスト学習ネットワークを開発し、モダリティを分離した事前学習を通じて、予備的な特徴空間アライメントを実現する。ステージ2では、時間的畳み込みネットワーク(TCN)とゲート双方向LSTMを統合した時間的動的融合モジュールを導入し、表情のマクロ進化パターンと音響特徴の局所的ダイナミクスをそれぞれ捉える。新たな品質誘導型核融合戦略により、閉塞および雑音下でのモダリティ補償のための微分可能な重量割り当てが可能となる。 Hume-Vidmimic2データセットの実験では、検証セット上の6つの感情次元に対して平均ピアソン相関係数0.51で優れた性能を示した。また,本手法は,第8回ABAW(Affective Behavior Analysis in the Wild)コンペティションのEMIチャレンジトラックにおいて,オープン環境における感情分析のための新たな経路として,0.68を達成している。

関連論文リスト

Confidence-driven Gradient Modulation for Multimodal Human Activity Recognition: A Dynamic Contrastive Dual-Path Learning Approach [3.0868241505670198]
動的コントラストデュアルパスネットワーク(D-HAR)と呼ばれる新しいフレームワークを提案する。まず、デュアルパスの特徴抽出アーキテクチャを使用し、ResNetとDenseCDPNetが協調してマルチモーダルセンサデータを処理している。第二に、局所的な知覚から意味的抽象への進歩的なアライメントを実現するために、多段階のコントラスト学習機構を導入する。第3に、バックプロパゲーション中の各モード分岐の学習強度を動的に監視・調整する信頼性駆動型勾配変調方式を提案する。
論文参考訳（メタデータ） (2025-07-03T17:37:46Z)
DMAF-Net: An Effective Modality Rebalancing Framework for Incomplete Multi-Modal Medical Image Segmentation [7.441945494253697]
DMAF-Net(Dynamic Modality-Aware Fusion Network)と呼ばれる新しいモデルを提案する。まず、欠落したモダリティ干渉を抑制するために、動的モダリティ・アウェア・フュージョン(DMAF)モジュールを導入する。第二に、グローバルな特徴アライメントを強制するために、相乗的関係蒸留とプロトタイプ蒸留のフレームワークを設計する。第3に、不均衡な損失率で最適化を安定化するための動的トレーニングモニタリング(DTM)戦略を提案する。
論文参考訳（メタデータ） (2025-06-13T11:38:18Z)
AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。 AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T03:28:53Z)
Spiking Neural Networks with Temporal Attention-Guided Adaptive Fusion for imbalanced Multi-modal Learning [32.60363000758323]
マルチモーダルスパイクニューラルネットワーク(SNN)のための時間的注意誘導型適応融合フレームワークを提案する。提案フレームワークは,特に時間次元において適応的融合を実装し,マルチモーダル学習におけるモダリティの不均衡を軽減する。本システムは,学習可能なタイムワープ操作と,ベースラインSNNよりも高速なモーダリティ収束調整により,時間的ずれを解消する。
論文参考訳（メタデータ） (2025-05-20T15:55:11Z)
Towards Explainable Fusion and Balanced Learning in Multimodal Sentiment Analysis [14.029574339845476]
Kan-MCP は Kolmogorov-Arnold Networks (KAN) の解釈可能性と Multimodal Clean Pareto (MCPareto) フレームワークの堅牢性を統合する新しいフレームワークである。本稿では, 特徴量次元を両立・縮小するDRD-MIB法を提案する。この解釈可能性と堅牢性の相乗効果は、CMU-MOSI、CMU-MOSEI、CH-SIMS v2などのベンチマークデータセットにおいて優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-04-16T15:00:06Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
MHSA: A Multi-scale Hypergraph Network for Mild Cognitive Impairment Detection via Synchronous and Attentive Fusion [4.526574526136158]
同期核融合によるMCI検出のためのマルチスケールハイパーグラフネットワークを提案する。本手法では、関心領域のスペクトル領域における位相同期関係を計算するために、位相同期値(PLV)を用いる。 PLV係数は動的に戦略を調整し,時間スペクトル融合行列に基づいて動的ハイパーグラフをモデル化する。
論文参考訳（メタデータ） (2024-12-11T02:59:57Z)
Synesthesia of Machines (SoM)-Enhanced ISAC Precoding for Vehicular Networks with Double Dynamics [15.847713094328286]
統合センシング・通信(ISAC)技術は車載ネットワークにとって不可欠である。リアルタイムプリコーディング設計において,通信チャネルの時間変化とターゲットの迅速な移動は重要な課題となる。本稿では、位置決めやチャネル情報といったモダリティを活用してこれらのダイナミクスに適応する、SoM(SoM)強化プリコーディングのシンセサイザを提案する。
論文参考訳（メタデータ） (2024-08-24T10:35:10Z)
Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文参考訳（メタデータ） (2024-05-21T20:37:07Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。 Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文参考訳（メタデータ） (2024-03-20T15:08:43Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。 AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。 AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-12T11:48:49Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
Group Gated Fusion on Attention-based Bidirectional Alignment for Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。 LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文参考訳（メタデータ） (2022-01-17T09:46:59Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。