Fugu-MT 論文翻訳(概要): HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition in the Wild

論文の概要: HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition in the Wild

arxiv url: http://arxiv.org/abs/2007.12519v1
Date: Fri, 24 Jul 2020 13:36:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 06:13:54.733596
Title: HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition in the Wild
Title（参考訳）: HEU Emotion: 野生におけるマルチモーダル感情認識のための大規模データベース
Authors: Jing Chen (1), Chenhui Wang (2), Kejun Wang (1), Chaoqun Yin (1), Cong Zhao (1), Tao Xu (1), Xinyi Zhang (1), Ziqiang Huang (1), Meichen Liu (1), Tao Yang (1) ((1) College of Intelligent Systems Science and Engineering, Harbin Engineering University, Harbin, China., (2) UCLA Department of Statistics, Los Angeles, CA.)
Abstract要約: 我々は、新しい自然状態ビデオデータベース(HEU Emotion)をリリースする。 HEU Emotionには合計19,004本のビデオクリップが含まれており、データソースによって2つの部分に分けられる。両部位の認識精度はそれぞれ2.19%,4.01%上昇した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The study of affective computing in the wild setting is underpinned by databases. Existing multimodal emotion databases in the real-world conditions are few and small, with a limited number of subjects and expressed in a single language. To meet this requirement, we collected, annotated, and prepared to release a new natural state video database (called HEU Emotion). HEU Emotion contains a total of 19,004 video clips, which is divided into two parts according to the data source. The first part contains videos downloaded from Tumblr, Google, and Giphy, including 10 emotions and two modalities (facial expression and body posture). The second part includes corpus taken manually from movies, TV series, and variety shows, consisting of 10 emotions and three modalities (facial expression, body posture, and emotional speech). HEU Emotion is by far the most extensive multi-modal emotional database with 9,951 subjects. In order to provide a benchmark for emotion recognition, we used many conventional machine learning and deep learning methods to evaluate HEU Emotion. We proposed a Multi-modal Attention module to fuse multi-modal features adaptively. After multi-modal fusion, the recognition accuracies for the two parts increased by 2.19% and 4.01% respectively over those of single-modal facial expression recognition.
Abstract（参考訳）: 野生環境における情緒コンピューティングの研究はデータベースが基盤となっている。実世界の環境における既存のマルチモーダル感情データベースは少ないが、主題は限られており、単一の言語で表現される。この要件を満たすため、我々は、新しい自然状態ビデオデータベース(HEU Emotion)をリリースする準備をし、注釈を付けました。 HEU Emotionには19,004本のビデオクリップが含まれており、データソースによって2つの部分に分けられる。最初の部分はTumblr、Google、Giphyからダウンロードされたビデオで、10の感情と2つのモダリティ(表情と身体姿勢)が含まれている。第2部は、映画、テレビシリーズ、バラエティ番組から手作業で取ったコーパスを含み、10の感情と3つのモダリティ(表情、身体姿勢、感情スピーチ)から構成される。 HEU Emotionは、9,951人の被験者からなる最も広範なマルチモーダル感情データベースである。感情認識のベンチマークを提供するために,HEU感情を評価するために,従来の機械学習やディープラーニング手法を用いた。マルチモーダル特徴を適応的に融合するマルチモーダルアテンションモジュールを提案する。マルチモーダル融合後,両部位の認識精度はそれぞれ2.19%,4.01%上昇した。

関連論文リスト

Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis [6.387263468033964]
自己レビューデータセットと人間レビューデータセットを導入し,24,137個の粗粒度サンプルと3,500個の手作業で詳細な感情アノテーションを付加したアノテートサンプルを作成した。音声モデリングに加えて,既存の高度なビデオMLLMに顔符号化モデルを明示的に統合することを提案する。我々のOmni-Emotionは、感情認識と推論の両方において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-01-16T12:27:05Z)
MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation [39.30784838378127]
音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。 DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2025-01-03T13:43:21Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
When Words Smile: Generating Diverse Emotional Facial Expressions from Text [72.19705878257204]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文参考訳（メタデータ） (2024-12-03T15:39:05Z)
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。 MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文参考訳（メタデータ） (2024-11-18T02:09:48Z)
Generative Emotion Cause Explanation in Multimodal Conversations [23.39751445330256]
我々は、新しいタスク textbfMultimodal textbfConversation textbfEmotion textbfCause textbfExplanation (MCECE)を提案する。マルチモーダル会話シナリオにおいて、ターゲット発話に対する感情的原因を詳細に説明することを目的としている。 FAME-Netという新しいアプローチが提案され、ビデオの表情を通して、視覚データを解析し、感情を正確に解釈するLarge Language Models(LLMs)の力を利用する。
論文参考訳（メタデータ） (2024-11-01T09:16:30Z)
Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model [5.301672905886949]
本稿では、MLLM技術を用いてビデオからオープン語彙感情ラベルを生成する方法を紹介する。 MER2024課題のMER-OV(Open-Word Emotion Recognition)において,本手法は重要な優位性を実現し,複雑な感情計算の能力に優れていた。
論文参考訳（メタデータ） (2024-08-21T02:17:18Z)
Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset [74.74686464187474]
Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU)は、マルチモーダルな会話履歴に現れる意味情報をデコードすることを目的としている。 MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。 MC-EIUデータセットは,7つの感情カテゴリー,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および英語とマンダリンの2つの言語を特徴とする。
論文参考訳（メタデータ） (2024-07-03T01:56:00Z)
EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。 EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文参考訳（メタデータ） (2024-06-24T08:33:02Z)
EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model [22.292581935835678]
EALDと呼ばれる長周期・非同一性ビデオにおける感情分析のためのデータセットを構築した。また,NFBL(Non-Facial Body Language)アノテーションを各プレイヤーに提供します。 NFBLは内向きの感情表現であり、感情状態を理解するためのアイデンティティフリーな手がかりとして機能する。
論文参考訳（メタデータ） (2024-05-01T15:25:54Z)
MAFW: A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild [56.61912265155151]
大規模複合感情データベースMAFWを提案する。各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。複合感情のアノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。
論文参考訳（メタデータ） (2022-08-01T13:34:33Z)
M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。 M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文参考訳（メタデータ） (2022-05-09T06:52:51Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。