論文の概要: Versatile Audio-Visual Learning for Handling Single and Multi Modalities
in Emotion Regression and Classification Tasks
- arxiv url: http://arxiv.org/abs/2305.07216v1
- Date: Fri, 12 May 2023 03:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:17:29.329029
- Title: Versatile Audio-Visual Learning for Handling Single and Multi Modalities
in Emotion Regression and Classification Tasks
- Title(参考訳): 感情回帰・分類課題における単一・多様処理のための多彩な音声・視覚学習
- Authors: Lucas Goncalves, Seong-Gyun Leem, Wei-Cheng Lin, Berrak Sisman, Carlos
Busso
- Abstract要約: 本研究は,非モーダル・マルチモーダルシステムを扱うための音声視覚学習(VAVL)フレームワークを提案する。
音声と視覚のペアリングができない場合でもトレーニングできるオーディオ・ビジュアル・フレームワークを実装した。
VAVLは、MSP-IMPROVコーパス上で感情属性予測タスクにおいて、新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 28.03046198108713
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most current audio-visual emotion recognition models lack the flexibility
needed for deployment in practical applications. We envision a multimodal
system that works even when only one modality is available and can be
implemented interchangeably for either predicting emotional attributes or
recognizing categorical emotions. Achieving such flexibility in a multimodal
emotion recognition system is difficult due to the inherent challenges in
accurately interpreting and integrating varied data sources. It is also a
challenge to robustly handle missing or partial information while allowing
direct switch between regression and classification tasks. This study proposes
a \emph{versatile audio-visual learning} (VAVL) framework for handling unimodal
and multimodal systems for emotion regression and emotion classification tasks.
We implement an audio-visual framework that can be trained even when audio and
visual paired data is not available for part of the training set (i.e., audio
only or only video is present). We achieve this effective representation
learning with audio-visual shared layers, residual connections over shared
layers, and a unimodal reconstruction task. Our experimental results reveal
that our architecture significantly outperforms strong baselines on both the
CREMA-D and MSP-IMPROV corpora. Notably, VAVL attains a new state-of-the-art
performance in the emotional attribute prediction task on the MSP-IMPROV
corpus. Code available at: https://github.com/ilucasgoncalves/VAVL
- Abstract(参考訳): 現在の音声と視覚の感情認識モデルのほとんどは、実用的なアプリケーションへのデプロイに必要な柔軟性を欠いている。
1つのモダリティのみが利用可能であっても機能し、感情的属性の予測やカテゴリー的感情の認識に相互に実装できるマルチモーダルシステムを構想する。
マルチモーダル感情認識システムにおけるこのような柔軟性の実現は、さまざまなデータソースの正確な解釈と統合が難しいため、難しい。
また、回帰タスクと分類タスクを直接切り替えることなく、欠落や部分的な情報を堅牢に扱うことも課題である。
本研究では,感情回帰と感情分類タスクのための一様・多様システムを扱うためのvavl(\emph{versatile audio-visual learning})フレームワークを提案する。
我々は、トレーニングセットの一部(オーディオのみ、またはビデオのみ)で、オーディオと視覚のペアリングデータが利用できない場合でも、トレーニング可能なオーディオ視覚フレームワークを実装した。
我々は,この効果的な表現学習を,視聴覚的共有層,共有層上の残差接続,ユニモーダル再構築タスクを用いて達成する。
我々のアーキテクチャは, CREMA-DとMSP-IMPROVコーパスの両方において, 強いベースラインを著しく上回っていることが明らかとなった。
特に、VAVLは、MSP-IMPROVコーパスの感情属性予測タスクにおいて、新しい最先端性能を得る。
コード提供: https://github.com/ilucasgoncalves/vavl
関連論文リスト
- Leveraging Retrieval Augment Approach for Multimodal Emotion Recognition Under Missing Modalities [16.77191718894291]
我々は,Multimodal Emotion Recognition(RAMER)の欠如に対する検索機能強化の新たな枠組みを提案する。
我々のフレームワークは、欠落したモダリティMERタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-09-19T02:31:12Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文 参考訳(メタデータ) (2023-06-14T17:52:37Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Self-Supervised learning with cross-modal transformers for emotion
recognition [20.973999078271483]
自己教師型学習は、音声や自然言語のようなドメインでラベル付きデータセットが限定されたタスクの改善を示している。
本研究では,マルチモーダルアプリケーションに自己指導型トレーニングを拡張する。
論文 参考訳(メタデータ) (2020-11-20T21:38:34Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。