論文の概要: FAF: A novel multimodal emotion recognition approach integrating face,
body and text
- arxiv url: http://arxiv.org/abs/2211.15425v1
- Date: Sun, 20 Nov 2022 14:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:25:38.220378
- Title: FAF: A novel multimodal emotion recognition approach integrating face,
body and text
- Title(参考訳): FAF:顔、体、テキストの統合による新しいマルチモーダル感情認識アプローチ
- Authors: Zhongyu Fang, Aoyun He, Qihui Yu, Baopeng Gao, Weiping Ding, Tong
Zhang, Lei Ma
- Abstract要約: 我々は、感情認識作業を容易にするために、大規模マルチモーダル感情データセット「HED」を構築した。
認識の精度を高めるため,重要な感情情報の探索に「特徴アフター・フィーチャー」フレームワークが用いられた。
我々は、"HED"データセットの評価に様々なベンチマークを使用し、その性能を本手法と比較した。
- 参考スコア(独自算出の注目度): 13.485538135494153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal emotion analysis performed better in emotion recognition depending
on more comprehensive emotional clues and multimodal emotion dataset. In this
paper, we developed a large multimodal emotion dataset, named "HED" dataset, to
facilitate the emotion recognition task, and accordingly propose a multimodal
emotion recognition method. To promote recognition accuracy, "Feature After
Feature" framework was used to explore crucial emotional information from the
aligned face, body and text samples. We employ various benchmarks to evaluate
the "HED" dataset and compare the performance with our method. The results show
that the five classification accuracy of the proposed multimodal fusion method
is about 83.75%, and the performance is improved by 1.83%, 9.38%, and 21.62%
respectively compared with that of individual modalities. The complementarity
between each channel is effectively used to improve the performance of emotion
recognition. We had also established a multimodal online emotion prediction
platform, aiming to provide free emotion prediction to more users.
- Abstract(参考訳): マルチモーダル感情分析は、より包括的な感情手がかりとマルチモーダル感情データセットに依存する感情認識において優れた結果を示した。
本稿では,感情認識作業を容易にするための大規模マルチモーダル感情データセット「HED」を開発し,それに基づいてマルチモーダル感情認識手法を提案する。
認識精度を高めるために, 顔, 体, テキストサンプルから重要な感情情報を探索するために「機能後特徴」フレームワークを用いた。
我々は、"HED"データセットの評価に様々なベンチマークを使用し、その性能を本手法と比較した。
その結果, 提案手法の5つの分類精度は約83.75%であり, それぞれ1.83%, 9.38%, 21.62%向上した。
各チャンネル間の相補性は感情認識の性能向上に有効である。
また、より多くのユーザーに無料の感情予測を提供することを目的として、マルチモーダルオンライン感情予測プラットフォームを構築しました。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Smile upon the Face but Sadness in the Eyes: Emotion Recognition based on Facial Expressions and Eye Behaviors [63.194053817609024]
視覚行動は、視覚行動支援型マルチモーダル感情認識データセットを作成するための重要な感情的手がかりとなる。
EMERデータセットに感情認識(ER)と表情認識(FER)の両方のアノテーションを初めて提供する。
具体的には、ERとFERの両方のパフォーマンスを同時に向上する新しいEMERTアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-08T04:53:55Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - An Empirical Study and Improvement for Speech Emotion Recognition [22.250228893114066]
マルチモーダル音声の感情認識は、音声とテキストから話者の感情を検出することを目的としている。
本研究では、音声とテキストのモダリティ情報を融合する方法という、シンプルながら重要な問題について考察する。
実験により,本手法はIEMOCAPデータセット上で得られた新しい最先端結果を示す。
論文 参考訳(メタデータ) (2023-04-08T03:24:06Z) - Mutilmodal Feature Extraction and Attention-based Fusion for Emotion
Estimation in Videos [16.28109151595872]
ABAW(Affective Behavior Analysis in the-wild)に関するCVPR 2023コンペティションについて紹介する。
我々は、音声、ポーズ、画像など、競合データセットから異なる長さのビデオから抽出したマルチモーダル特徴を利用した。
本システムでは,検証データセット上での0.361の性能を実現する。
論文 参考訳(メタデータ) (2023-03-18T14:08:06Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。