論文の概要: ICANet: A Method of Short Video Emotion Recognition Driven by Multimodal
Data
- arxiv url: http://arxiv.org/abs/2208.11346v1
- Date: Wed, 24 Aug 2022 07:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:46:16.862914
- Title: ICANet: A Method of Short Video Emotion Recognition Driven by Multimodal
Data
- Title(参考訳): ICANet:マルチモーダルデータによる短時間映像感情認識手法
- Authors: Xuecheng Wu, Mengmeng Tian, Lanhang Zhai
- Abstract要約: 我々は,マルチモーダルなショートビデオ感情認識を実現するためにICANetという新しい手法を提案する。
オーディオ、ビデオ、光学フローの3つの異なるモダリティを採用しており、単一のモダリティの欠如を補っている。
ICANetはIEMOCAPベンチマークで80.77%の精度でSOTA法を15.89%上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the fast development of artificial intelligence and short videos,
emotion recognition in short videos has become one of the most important
research topics in human-computer interaction. At present, most emotion
recognition methods still stay in a single modality. However, in daily life,
human beings will usually disguise their real emotions, which leads to the
problem that the accuracy of single modal emotion recognition is relatively
terrible. Moreover, it is not easy to distinguish similar emotions. Therefore,
we propose a new approach denoted as ICANet to achieve multimodal short video
emotion recognition by employing three different modalities of audio, video and
optical flow, making up for the lack of a single modality and then improving
the accuracy of emotion recognition in short videos. ICANet has a better
accuracy of 80.77% on the IEMOCAP benchmark, exceeding the SOTA methods by
15.89%.
- Abstract(参考訳): 人工知能とショートビデオの急速な発展により、短いビデオにおける感情認識は、人間とコンピュータの相互作用において最も重要な研究トピックの1つとなっている。
現在、ほとんどの感情認識法は単一モードのままである。
しかし、日常生活では、人間は通常、実際の感情を偽り、単一のモーダルな感情認識の精度が比較的ひどいという問題を引き起こす。
また、類似した感情を区別することは容易ではない。
そこで,本研究では,音声,映像,光の流れの3つの異なるモダリティを用い,単一モダリティの欠如を補い,ショートビデオにおける感情認識の精度を向上させることにより,マルチモーダルなショートビデオ感情認識を実現するための新しいアプローチを提案する。
ICANetはIEMOCAPベンチマークで80.77%の精度でSOTA法を15.89%上回っている。
関連論文リスト
- Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。
本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Self context-aware emotion perception on human-robot interaction [3.775456992482295]
人間は、文脈情報と異なる文脈が、全く異なる感情表現をもたらす可能性があると考えている。
異なる感情をアンカーし、再ラベルするための2次元感情座標システムを用いた自己文脈認識モデル(SCAM)を導入する。
このアプローチは、オーディオ、ビデオ、マルチモーダル環境において、大幅な改善をもたらした。
論文 参考訳(メタデータ) (2024-01-18T10:58:27Z) - The Good, The Bad, and Why: Unveiling Emotions in Generative AI [73.94035652867618]
EmotionPromptはAIモデルの性能を向上し、EmotionAttackはそれを妨げうることを示す。
EmotionDecodeによると、AIモデルは人間の脳内のドーパミンのメカニズムに似た感情的な刺激を理解することができる。
論文 参考訳(メタデータ) (2023-12-18T11:19:45Z) - An Empirical Study and Improvement for Speech Emotion Recognition [22.250228893114066]
マルチモーダル音声の感情認識は、音声とテキストから話者の感情を検出することを目的としている。
本研究では、音声とテキストのモダリティ情報を融合する方法という、シンプルながら重要な問題について考察する。
実験により,本手法はIEMOCAPデータセット上で得られた新しい最先端結果を示す。
論文 参考訳(メタデータ) (2023-04-08T03:24:06Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Using Knowledge-Embedded Attention to Augment Pre-trained Language
Models for Fine-Grained Emotion Recognition [0.0]
我々は,事前学習した自己意識モデルに外部知識を導入することで,微粒な感情認識を改善することに集中する。
結果と誤差解析は,複数のデータセットで過去のモデルより優れていた。
論文 参考訳(メタデータ) (2021-07-31T09:41:44Z) - Temporal aggregation of audio-visual modalities for emotion recognition [0.5352699766206808]
本研究では,時間的オフセットの異なる時間的オフセットと時間的ウィンドウからの音声・視覚的モダリティを組み合わせた感情認識のためのマルチモーダル融合手法を提案する。
提案手法は,文献と人間の精度評価から,他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-08T18:44:15Z) - Emotion Recognition in Audio and Video Using Deep Neural Networks [9.694548197876868]
ディープラーニング技術の進歩により、音声認識が大幅に向上した。
音声から感情を認識することは重要な側面であり、ディープラーニング技術により、感情認識は精度とレイテンシが向上した。
本研究では、感情認識の精度を向上させるために、異なるニューラルネットワークを探索する。
論文 参考訳(メタデータ) (2020-06-15T04:50:18Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。