論文の概要: Exploring Emotion Features and Fusion Strategies for Audio-Video Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2012.13912v1
- Date: Sun, 27 Dec 2020 10:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 22:14:37.075997
- Title: Exploring Emotion Features and Fusion Strategies for Audio-Video Emotion
Recognition
- Title(参考訳): 音声映像感情認識のための感情特徴と融合戦略の探索
- Authors: Hengshun Zhou, Debin Meng, Yuanyuan Zhang, Xiaojiang Peng, Jun Du, Kai
Wang, Yu Qiao
- Abstract要約: EmotiW 2019では、感情の特徴と、音声と視覚のモダリティのための機能融合戦略を主に検討している。
慎重な評価により、AFEW検証セットで65.5%、テストセットで62.48%、チャレンジで3位を獲得します。
- 参考スコア(独自算出の注目度): 62.48806555665122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The audio-video based emotion recognition aims to classify a given video into
basic emotions. In this paper, we describe our approaches in EmotiW 2019, which
mainly explores emotion features and feature fusion strategies for audio and
visual modality. For emotion features, we explore audio feature with both
speech-spectrogram and Log Mel-spectrogram and evaluate several facial features
with different CNN models and different emotion pretrained strategies. For
fusion strategies, we explore intra-modal and cross-modal fusion methods, such
as designing attention mechanisms to highlights important emotion feature,
exploring feature concatenation and factorized bilinear pooling (FBP) for
cross-modal feature fusion. With careful evaluation, we obtain 65.5% on the
AFEW validation set and 62.48% on the test set and rank third in the challenge.
- Abstract(参考訳): オーディオビデオに基づく感情認識は、ある動画を基本的な感情に分類することを目的としている。
本稿では,音声と視覚モダリティのための感情特徴と特徴融合戦略を主に研究するemotiw 2019のアプローチについて述べる。
感情特徴について,音声特徴を音声スペクトログラムとLog Mel-spectrogramで検討し,様々なCNNモデルと異なる感情事前学習戦略を用いて複数の顔特徴を評価する。
融合戦略については,重要な感情特徴を強調する注意機構の設計,特徴連結と因子化双線型プール(fbp)の探索など,モーダル内・クロスモーダル融合法を検討する。
慎重に評価すると、AFEW検証セットで65.5%、テストセットで62.48%、チャレンジで3位となる。
関連論文リスト
- Enhancing Modal Fusion by Alignment and Label Matching for Multimodal Emotion Recognition [16.97833694961584]
Foal-Netは、モダリティ融合の有効性を高めるように設計されている。
これには、オーディオビデオの感情アライメントと、モーダルな感情ラベルマッチングという2つの補助的なタスクが含まれる。
実験の結果,Foal-Netは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-18T11:05:21Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Enhancing Emotion Recognition in Conversation through Emotional Cross-Modal Fusion and Inter-class Contrastive Learning [40.101313334772016]
会話における感情認識の目的は、文脈情報に基づいて発話の感情カテゴリーを特定することである。
従来のERC法は、クロスモーダル核融合のための単純な接続に依存していた。
本稿では,ベクトル接続に基づくモーダル融合感情予測ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:22:30Z) - Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation [8.529105068848828]
Emotional Mimicry Intensity (EMI) Estimation Challenge taskは、シードビデオの感情的強度を評価することを目的としている。
ビデオモダリティのためのResNet18とAUに基づいてリッチなデュアルチャネル視覚特徴を抽出し、オーディオモダリティのためのWav2Vec2.0に基づく効果的なシングルチャネル特徴を抽出した。
視覚モデルと音響モデルの予測値を平均化し,視覚的感情的模倣強度をより正確に推定した。
論文 参考訳(メタデータ) (2024-03-18T13:11:10Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Mutilmodal Feature Extraction and Attention-based Fusion for Emotion
Estimation in Videos [16.28109151595872]
ABAW(Affective Behavior Analysis in the-wild)に関するCVPR 2023コンペティションについて紹介する。
我々は、音声、ポーズ、画像など、競合データセットから異なる長さのビデオから抽出したマルチモーダル特徴を利用した。
本システムでは,検証データセット上での0.361の性能を実現する。
論文 参考訳(メタデータ) (2023-03-18T14:08:06Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's
Principle [71.47160118286226]
EmotiConは、ビデオや画像から知覚された人間の感情認識をコンテキスト認識する学習アルゴリズムである。
心理学からフレーゲの文脈原理に動機づけられた我々のアプローチは、感情認識のための文脈の3つの解釈を組み合わせたものである。
平均精度 (AP) スコアは26クラスで35.48であり, 従来の手法よりも7-8の改善が見られた。
論文 参考訳(メタデータ) (2020-03-14T19:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。