論文の概要: Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach
- arxiv url: http://arxiv.org/abs/2603.12848v1
- Date: Fri, 13 Mar 2026 09:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.037598
- Title: Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach
- Title(参考訳): 第10回ABAWコンペティションにおけるチームLEYA
- Authors: Elena Ryumina, Alexandr Axyonov, Dmitry Sysoev, Timur Abdulkadirov, Kirill Almetov, Yulia Morozova, Dmitry Ryumin,
- Abstract要約: 本稿では,制約のないビデオにおけるアンビバレンス/ヘシタシー認識のためのマルチモーダルアプローチを提案する。
提案手法は,シーン,顔,音声,テキストの4つの相補的モダリティを統合する。
BAHコーパスの実験では、全ての単調基底線上でのマルチモーダル核融合の明らかな利得が示されている。
- 参考スコア(独自算出の注目度): 43.09390014734485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ambivalence/hesitancy recognition in unconstrained videos is a challenging problem due to the subtle, multimodal, and context-dependent nature of this behavioral state. In this paper, a multimodal approach for video-level ambivalence/hesitancy recognition is presented for the 10th ABAW Competition. The proposed approach integrates four complementary modalities: scene, face, audio, and text. Scene dynamics are captured with a VideoMAE-based model, facial information is encoded through emotional frame-level embeddings aggregated by statistical pooling, acoustic representations are extracted with EmotionWav2Vec2.0 and processed by a Mamba-based temporal encoder, and linguistic cues are modeled using fine-tuned transformer-based text models. The resulting unimodal embeddings are further combined using multimodal fusion models, including prototype-augmented variants. Experiments on the BAH corpus demonstrate clear gains of multimodal fusion over all unimodal baselines. The best unimodal configuration achieved an average MF1 of 70.02%, whereas the best multimodal fusion model reached 83.25%. The highest final test performance, 71.43%, was obtained by an ensemble of five prototype-augmented fusion models. The obtained results highlight the importance of complementary multimodal cues and robust fusion strategies for ambivalence/hesitancy recognition.
- Abstract(参考訳): 非拘束ビデオにおけるアンビバレンス/ヘシタシー認識は、この行動状態の微妙で、マルチモーダルで、文脈に依存した性質のため、難しい問題である。
本稿では,第10回ABAWコンペティションにおいて,ビデオレベルのアンビバレンス/ヘシタシー認識のためのマルチモーダルアプローチを提案する。
提案手法は,シーン,顔,音声,テキストの4つの相補的モダリティを統合する。
シーンダイナミクスはビデオMAEベースのモデルでキャプチャされ、顔情報は統計的プーリングで集約された感情的なフレームレベルの埋め込みによって符号化され、音響表現はEmotionWav2Vec2.0で抽出され、マンバベースの時間エンコーダで処理され、言語的手がかりは微調整されたトランスフォーマーベースのテキストモデルでモデル化される。
結果として得られるユニモーダル埋め込みは、プロトタイプ拡張型を含むマルチモーダル融合モデルを用いてさらに結合される。
BAHコーパスの実験では、全ての単調基底線上でのマルチモーダル核融合の明らかな利得が示されている。
最高の単調な構成は平均で70.02%のMF1を達成し、最高のマルチモーダル核融合モデルは83.25%に達した。
最も高い最終試験性能である71.43%は、5つの試作機強化核融合モデルによるアンサンブルによって得られた。
得られた結果は, 相補的マルチモーダルキューの重要性と, アンビバレンス/ヘシタシー認識のための堅牢な融合戦略を強調した。
関連論文リスト
- Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach [53.64487844936037]
本手法は,顔,行動,音声の3つの相補的なモードを組み合わせる。
実験により,提案したマルチモーダル核融合戦略は, Aff-Wild2 開発セット上で0.658 の一致相関係数(CCC)を達成することを示した。
論文 参考訳(メタデータ) (2026-03-13T15:06:14Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。
提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。
IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-05T07:02:30Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Multi-level Fusion of Wav2vec 2.0 and BERT for Multimodal Emotion
Recognition [15.133202035812017]
本稿では,wav2vec 2.0やBERTといった最先端の事前学習モデルを利用したトランスファー学習を提案する。
また, フレームレベルの音声埋め込みだけでなく, 音声, 音節, 単語レベルの音声埋め込みなどのセグメントレベルの埋め込みも抽出し, さらなる性能向上を図る。
論文 参考訳(メタデータ) (2022-07-11T08:20:53Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。