論文の概要: Two-Stage Multimodal Framework for Emotion Mimicry Intensity Prediction
- arxiv url: http://arxiv.org/abs/2605.21869v1
- Date: Thu, 21 May 2026 01:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.052171
- Title: Two-Stage Multimodal Framework for Emotion Mimicry Intensity Prediction
- Title(参考訳): 感情過敏度予測のための2段階マルチモーダルフレームワーク
- Authors: Dinithi Dissanayake, Shaveen Silva, Ovindu Atukorala, Prasanth Sasikumar, Suranga Nanayakkara,
- Abstract要約: 本稿では,Hum-ABAW10 Emotional Mimicry Intensity (EMI) Challengeに応募する。
本稿では,テキスト,音響,視覚の表現を任意動作分岐と組み合わせたマルチモーダル・フレームワークを提案する。
私たちのチームはEMIチャレンジで3位となり、テストセットの平均Pearson相関は0.57に達した。
- 参考スコア(独自算出の注目度): 16.051484505286783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present our submission to the Hume-ABAW10 Emotional Mimicry Intensity (EMI) Challenge, which aims to predict six continuous emotion intensity dimensions: Admiration, Amusement, Determination, Empathic Pain, Excitement, and Joy, from in-the-wild multimodal video clips. We propose a staged multimodal framework that combines textual, acoustic, and visual representations, with an optional motion branch. Our approach first trains modality-specific encoders independently and then fuses their learned representations through a lightweight regressor with modality dropout and controlled encoder adaptation. Across our submitted systems, the best validation performance is obtained by the text--audio--vision--motion fusion model under the expanded 4:1 split, achieving an average Pearson correlation of 0.4722. Although the motion branch yields only very slight gains, its behavior can be interesting to study. Our team was placed third in the EMI challenge, achieving an average Pearson correlation of 0.57 for the test set. Overall, we provide a practical and reproducible baseline for EMI prediction.
- Abstract(参考訳): 本論文は,Hum-ABAW10 Emotional Mimicry Intensity (EMI) Challengeへの提案である。
本稿では,テキスト,音響,視覚の表現を任意動作分岐と組み合わせたマルチモーダル・フレームワークを提案する。
提案手法はまず,まずモダリティ特化エンコーダを独立に訓練し,その後,モダリティドロップアウトと制御エンコーダ適応を備えた軽量回帰器を用いて学習した表現を融合させる。
提案システム全体では,拡張された4:1分割条件下でのテキスト・オーディオ・ビジョン・モーション・フュージョンモデルにより,Pearsonの相関平均0.4722を達成し,最高の検証性能が得られる。
運動枝は非常にわずかな利得しか得られないが、その振舞いの研究は興味深い。
私たちのチームはEMIチャレンジで3位となり、テストセットの平均Pearson相関は0.57に達した。
全体として、EMI予測のための実用的で再現可能なベースラインを提供する。
関連論文リスト
- Multimodal Emotion Regression with Multi-Objective Optimization and VAD-Aware Audio Modeling for the 10th ABAW EMI Track [11.775637010038794]
本稿では,Hum-Vidmimic2データセット上での情動的ミミトリインテンシティ(EMI)推定トラックに焦点を当てる。
それは、賞賛、面白さ、決定、共感の痛み、引用、ジョイの6つの連続した感情の次元を予測することを目的としている。
本フレームワークは、結合に基づく多モード融合、共有6次元回帰ヘッド、MSEによる多目的最適化、ピアソン相関、補助分岐監督、パラメータ安定化のためのEMA、音響分岐に先立ってVADにインスパイアされた潜水器を統合する。
論文 参考訳(メタデータ) (2026-03-14T05:17:06Z) - Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach [53.64487844936037]
本手法は,顔,行動,音声の3つの相補的なモードを組み合わせる。
実験により,提案したマルチモーダル核融合戦略は, Aff-Wild2 開発セット上で0.658 の一致相関係数(CCC)を達成することを示した。
論文 参考訳(メタデータ) (2026-03-13T15:06:14Z) - Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach [43.09390014734485]
本稿では,制約のないビデオにおけるアンビバレンス/ヘシタシー認識のためのマルチモーダルアプローチを提案する。
提案手法は,シーン,顔,音声,テキストの4つの相補的モダリティを統合する。
BAHコーパスの実験では、全ての単調基底線上でのマルチモーダル核融合の明らかな利得が示されている。
論文 参考訳(メタデータ) (2026-03-13T09:50:03Z) - Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition [60.20529806857076]
マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。
従来の手法では、機械的に独立な単調なパフォーマンスに依存することと、感情タスクで要求されるきめ細かい表現と相反する粗粒の融合という2つの主な制限に直面していた。
我々は,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するために,Atsukoという名前のComplementarity-Supervised Multi-Band Expert Networkを提案する。
論文 参考訳(メタデータ) (2026-03-07T03:58:48Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation [8.529105068848828]
Emotional Mimicry Intensity (EMI) Estimation Challenge taskは、シードビデオの感情的強度を評価することを目的としている。
ビデオモダリティのためのResNet18とAUに基づいてリッチなデュアルチャネル視覚特徴を抽出し、オーディオモダリティのためのWav2Vec2.0に基づく効果的なシングルチャネル特徴を抽出した。
視覚モデルと音響モデルの予測値を平均化し,視覚的感情的模倣強度をより正確に推定した。
論文 参考訳(メタデータ) (2024-03-18T13:11:10Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Facial Affect Recognition based on Transformer Encoder and Audiovisual
Fusion for the ABAW5 Challenge [10.88275919652131]
本稿では,Valence-Arousal Estimation (VA) Estimation, Expression (Expr) Classification, Action Unit (AU) Detection and Emotional Reaction Intensity (ERI) Estimationの4つのサブチャンジに対する解を提案する。
第5回ABAWコンペティションは、さまざまなモダリティとデータセットを使用した顔認識に焦点を当てている。
論文 参考訳(メタデータ) (2023-03-16T08:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。