論文の概要: Multimodal Emotion Regression with Multi-Objective Optimization and VAD-Aware Audio Modeling for the 10th ABAW EMI Track
- arxiv url: http://arxiv.org/abs/2603.13760v1
- Date: Sat, 14 Mar 2026 05:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.389531
- Title: Multimodal Emotion Regression with Multi-Objective Optimization and VAD-Aware Audio Modeling for the 10th ABAW EMI Track
- Title(参考訳): 10th ABAW EMIトラックの多目的最適化とVAD対応オーディオモデリングによるマルチモーダル感情回帰
- Authors: Jiawen Huang, Chenxi Huang, Zhuofan Wen, Hailiang Yao, Shun Chen, Longjiang Yang, Cong Yu, Fengyu Zhang, Ran Liu, Bin Liu,
- Abstract要約: 本稿では,Hum-Vidmimic2データセット上での情動的ミミトリインテンシティ(EMI)推定トラックに焦点を当てる。
それは、賞賛、面白さ、決定、共感の痛み、引用、ジョイの6つの連続した感情の次元を予測することを目的としている。
本フレームワークは、結合に基づく多モード融合、共有6次元回帰ヘッド、MSEによる多目的最適化、ピアソン相関、補助分岐監督、パラメータ安定化のためのEMA、音響分岐に先立ってVADにインスパイアされた潜水器を統合する。
- 参考スコア(独自算出の注目度): 11.775637010038794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We participated in the 10th ABAW Challenge, focusing on the Emotional Mimicry Intensity (EMI) Estimation track on the Hume-Vidmimic2 dataset. This task aims to predict six continuous emotion dimensions: Admiration, Amusement, Determination, Empathic Pain, Excitement, and Joy. Through systematic multimodal exploration of pretrained high-level features, we found that, under our pretrained feature setting, direct feature concatenation outperformed the more complex fusion strategies we tested. This empirical finding motivated us to design a systematic approach built upon three core principles: (i) preserving modality-specific attributes through feature-level concatenation; (ii) improving training stability and metric alignment via multi-objective optimization; and (iii) enriching acoustic representations with a VAD-inspired latent prior. Our final framework integrates concatenation-based multimodal fusion, a shared six-dimensional regression head, multi-objective optimization with MSE, Pearson-correlation, and auxiliary branch supervision, EMA for parameter stabilization, and a VAD-inspired latent prior for the acoustic branch. On the official validation set, the proposed scheme achieved our best mean Pearson Correlation Coefficient of 0.478567.
- Abstract(参考訳): 我々は第10回ABAWチャレンジに参加し,Hum-Vidmimic2データセットを用いた情緒的ミミリインテンシティ(EMI)推定トラックに着目した。
この課題は、賞賛、面白さ、決定、共感の痛み、引用、ジョイの6つの連続した感情の次元を予測することを目的としている。
事前訓練された高レベル特徴の体系的なマルチモーダル探索により、事前訓練された特徴設定の下で、直接的特徴結合は、我々がテストしたより複雑な融合戦略よりも優れていることがわかった。
この経験的な発見は、私たちが3つのコア原則に基づいて構築された体系的なアプローチを設計する動機となった。
一 特徴レベル連結によるモダリティ特有属性の保存
(二)多目的最適化による訓練安定性及び計量アライメントの改善
三)VADにインスパイアされた潜水器で音響表現を豊かにする。
最終枠組みは、結合に基づく多モード融合、共有6次元回帰ヘッド、MSEによる多目的最適化、ピアソン相関、補助分岐監督、パラメータ安定化のためのEMA、音響分岐に先立ってVADにインスパイアされた潜水器を統合する。
公式な検証セットでは、提案手法はピアソン相関係数 0.478567 の最良の平均値を達成した。
関連論文リスト
- Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models [6.350443894942629]
MWAM(Multimodal Weight Allocation Module)は、トレーニング中の各ブランチのコントリビューションを動的に再バランスするプラグイン・アンド・プレイコンポーネントである。
MWAMは幅広いタスクとモダリティの組み合わせで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-02-26T05:51:41Z) - Improving Multimodal Sentiment Analysis via Modality Optimization and Dynamic Primary Modality Selection [54.10252086842123]
マルチモーダル・センティメント・アナリティクス(MSA)は、ビデオにおける言語、音響、視覚データから感情を予測することを目的としている。
本稿では,モーダリティ最適化と動的一次モーダリティ選択フレームワーク(MODS)を提案する。
4つのベンチマークデータセットの実験では、MODSが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-11-09T11:13:32Z) - Dynamic Fusion Multimodal Network for SpeechWellness Detection [7.169178956727836]
自殺は青年期の死因の1つである。
これまでの自殺リスク予測研究は、主に単独でテキスト情報と音響情報の両方に焦点を当ててきた。
音声検出のための動的融合機構に基づく軽量マルチブランチマルチモーダルシステムについて検討する。
論文 参考訳(メタデータ) (2025-08-25T14:18:12Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Technical Approach for the EMI Challenge in the 8th Affective Behavior Analysis in-the-Wild Competition [10.741278852581646]
Emotional Mimicry Intensity (EMI)の推定は、人間の社会的行動を理解し、人間とコンピュータの相互作用を促進する上で重要な役割を担っている。
本稿では,既存手法の限界に対処する2段階のクロスモーダルアライメントフレームワークを提案する。
Hume-Vidmimic2データセットの実験では、6つの感情次元の平均ピアソン係数相関が0.51であるのに対し、優れた性能を示した。
論文 参考訳(メタデータ) (2025-03-13T17:46:16Z) - Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。
提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。
IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-05T07:02:30Z) - Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。
マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。
第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-01-26T02:19:03Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。