論文の概要: HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition
in the Wild
- arxiv url: http://arxiv.org/abs/2007.12519v1
- Date: Fri, 24 Jul 2020 13:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:13:54.733596
- Title: HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition
in the Wild
- Title(参考訳): HEU Emotion: 野生におけるマルチモーダル感情認識のための大規模データベース
- Authors: Jing Chen (1), Chenhui Wang (2), Kejun Wang (1), Chaoqun Yin (1), Cong
Zhao (1), Tao Xu (1), Xinyi Zhang (1), Ziqiang Huang (1), Meichen Liu (1),
Tao Yang (1) ((1) College of Intelligent Systems Science and Engineering,
Harbin Engineering University, Harbin, China., (2) UCLA Department of
Statistics, Los Angeles, CA.)
- Abstract要約: 我々は、新しい自然状態ビデオデータベース(HEU Emotion)をリリースする。
HEU Emotionには合計19,004本のビデオクリップが含まれており、データソースによって2つの部分に分けられる。
両部位の認識精度はそれぞれ2.19%,4.01%上昇した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of affective computing in the wild setting is underpinned by
databases. Existing multimodal emotion databases in the real-world conditions
are few and small, with a limited number of subjects and expressed in a single
language. To meet this requirement, we collected, annotated, and prepared to
release a new natural state video database (called HEU Emotion). HEU Emotion
contains a total of 19,004 video clips, which is divided into two parts
according to the data source. The first part contains videos downloaded from
Tumblr, Google, and Giphy, including 10 emotions and two modalities (facial
expression and body posture). The second part includes corpus taken manually
from movies, TV series, and variety shows, consisting of 10 emotions and three
modalities (facial expression, body posture, and emotional speech). HEU Emotion
is by far the most extensive multi-modal emotional database with 9,951
subjects. In order to provide a benchmark for emotion recognition, we used many
conventional machine learning and deep learning methods to evaluate HEU
Emotion. We proposed a Multi-modal Attention module to fuse multi-modal
features adaptively. After multi-modal fusion, the recognition accuracies for
the two parts increased by 2.19% and 4.01% respectively over those of
single-modal facial expression recognition.
- Abstract(参考訳): 野生環境における情緒コンピューティングの研究はデータベースが基盤となっている。
実世界の環境における既存のマルチモーダル感情データベースは少ないが、主題は限られており、単一の言語で表現される。
この要件を満たすため、我々は、新しい自然状態ビデオデータベース(HEU Emotion)をリリースする準備をし、注釈を付けました。
HEU Emotionには19,004本のビデオクリップが含まれており、データソースによって2つの部分に分けられる。
最初の部分はTumblr、Google、Giphyからダウンロードされたビデオで、10の感情と2つのモダリティ(表情と身体姿勢)が含まれている。
第2部は、映画、テレビシリーズ、バラエティ番組から手作業で取ったコーパスを含み、10の感情と3つのモダリティ(表情、身体姿勢、感情スピーチ)から構成される。
HEU Emotionは、9,951人の被験者からなる最も広範なマルチモーダル感情データベースである。
感情認識のベンチマークを提供するために,HEU感情を評価するために,従来の機械学習やディープラーニング手法を用いた。
マルチモーダル特徴を適応的に融合するマルチモーダルアテンションモジュールを提案する。
マルチモーダル融合後,両部位の認識精度はそれぞれ2.19%,4.01%上昇した。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Generative Emotion Cause Explanation in Multimodal Conversations [23.39751445330256]
我々は、新しいタスク textbfMultimodal textbfConversation textbfEmotion textbfCause textbfExplanation (MCECE)を提案する。
マルチモーダル会話シナリオにおいて、ターゲット発話に対する感情的原因を詳細に説明することを目的としている。
FAME-Netという新しいアプローチが提案され、ビデオの表情を通して、視覚データを解析し、感情を正確に解釈するLarge Language Models(LLMs)の力を利用する。
論文 参考訳(メタデータ) (2024-11-01T09:16:30Z) - Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model [5.301672905886949]
本稿では、MLLM技術を用いてビデオからオープン語彙感情ラベルを生成する方法を紹介する。
MER2024課題のMER-OV(Open-Word Emotion Recognition)において,本手法は重要な優位性を実現し,複雑な感情計算の能力に優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:17:18Z) - Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset [74.74686464187474]
Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU)は、マルチモーダルな会話履歴に現れる意味情報をデコードすることを目的としている。
MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。
MC-EIUデータセットは,7つの感情カテゴリー,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および英語とマンダリンの2つの言語を特徴とする。
論文 参考訳(メタデータ) (2024-07-03T01:56:00Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model [22.292581935835678]
EALDと呼ばれる長周期・非同一性ビデオにおける感情分析のためのデータセットを構築した。
また,NFBL(Non-Facial Body Language)アノテーションを各プレイヤーに提供します。
NFBLは内向きの感情表現であり、感情状態を理解するためのアイデンティティフリーな手がかりとして機能する。
論文 参考訳(メタデータ) (2024-05-01T15:25:54Z) - MAFW: A Large-scale, Multi-modal, Compound Affective Database for
Dynamic Facial Expression Recognition in the Wild [56.61912265155151]
大規模複合感情データベースMAFWを提案する。
各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。
複合感情のアノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。
論文 参考訳(メタデータ) (2022-08-01T13:34:33Z) - M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。
M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。
我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文 参考訳(メタデータ) (2022-05-09T06:52:51Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。