論文の概要: Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning
- arxiv url: http://arxiv.org/abs/2406.11161v1
- Date: Mon, 17 Jun 2024 03:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:33:51.882364
- Title: Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning
- Title(参考訳): Emotion-LLaMA:マルチモーダル感情認識とインストラクションチューニングによる推論
- Authors: Zebang Cheng, Zhi-Qi Cheng, Jun-Yan He, Jingdong Sun, Kai Wang, Yuxiang Lin, Zheng Lian, Xiaojiang Peng, Alexander Hauptmann,
- Abstract要約: 28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
- 参考スコア(独自算出の注目度): 55.127202990679976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate emotion perception is crucial for various applications, including human-computer interaction, education, and counseling. However, traditional single-modality approaches often fail to capture the complexity of real-world emotional expressions, which are inherently multimodal. Moreover, existing Multimodal Large Language Models (MLLMs) face challenges in integrating audio and recognizing subtle facial micro-expressions. To address this, we introduce the MERR dataset, containing 28,618 coarse-grained and 4,487 fine-grained annotated samples across diverse emotional categories. This dataset enables models to learn from varied scenarios and generalize to real-world applications. Furthermore, we propose Emotion-LLaMA, a model that seamlessly integrates audio, visual, and textual inputs through emotion-specific encoders. By aligning features into a shared space and employing a modified LLaMA model with instruction tuning, Emotion-LLaMA significantly enhances both emotional recognition and reasoning capabilities. Extensive evaluations show Emotion-LLaMA outperforms other MLLMs, achieving top scores in Clue Overlap (7.83) and Label Overlap (6.25) on EMER, an F1 score of 0.9036 on MER2023 challenge, and the highest UAR (45.59) and WAR (59.37) in zero-shot evaluations on DFEW dataset.
- Abstract(参考訳): 正確な感情知覚は、人間とコンピュータの相互作用、教育、カウンセリングなど、様々な用途に欠かせない。
しかし、伝統的な単一モダリティアプローチは、本質的にマルチモーダルである実世界の感情表現の複雑さを捉えるのに失敗することが多い。
さらに、既存のMLLM(Multimodal Large Language Models)は、音声の統合と微妙な顔のマイクロ表現の認識において、課題に直面している。
そこで本研究では,28,618粒径,4,487粒径のアノテートサンプルを含むMERRデータセットを提案する。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
さらに,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
特徴を共有空間に整列させ、命令チューニングを備えた改良LLaMAモデルを使用することで、感情-LLaMAは感情認識と推論能力の両方を大幅に強化する。
Emotion-LLaMA は他のMLLMよりも優れており、EMER では Clue Overlap (7.83) と Label Overlap (6.25)、MER2023 では F1 スコア 0.9036、DFEW データセットでは WAR (59.37) のゼロショット評価では UAR (45.59) が最高である。
関連論文リスト
- Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis [6.387263468033964]
自己レビューデータセットと人間レビューデータセットを導入し,24,137個の粗粒度サンプルと3,500個の手作業で詳細な感情アノテーションを付加したアノテートサンプルを作成した。
音声モデリングに加えて,既存の高度なビデオMLLMに顔符号化モデルを明示的に統合することを提案する。
我々のOmni-Emotionは、感情認識と推論の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-16T12:27:05Z) - M2SE: A Multistage Multitask Instruction Tuning Strategy for Unified Sentiment and Emotion Analysis [5.3848462080869215]
汎用MLLMのためのマルチステージマルチタスク・インストラクション・チューニング戦略であるM2SEを提案する。
マルチモーダル感情分析、感情認識、表情認識、感情理由推論、感情因果抽出といったタスクでモデルをトレーニングするために、組み合わせたアプローチを採用する。
我々のモデルであるEmotion Universe (EmoVerse) は、修正なしにMLLMフレームワーク上に構築されているが、M2SE戦略でトレーニングすると、これらのタスク間で大幅な改善が達成される。
論文 参考訳(メタデータ) (2024-12-11T02:55:00Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model [5.301672905886949]
本稿では、MLLM技術を用いてビデオからオープン語彙感情ラベルを生成する方法を紹介する。
MER2024課題のMER-OV(Open-Word Emotion Recognition)において,本手法は重要な優位性を実現し,複雑な感情計算の能力に優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:17:18Z) - SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition [65.19303535139453]
我々は,マルチモーダル感情認識におけるMER2024チャレンジのMER-NOISEとMER-OVトラックに対する勝利のアプローチを示す。
Emotion-LLaMAの高度な感情理解機能を利用して、ラベルなしサンプルの高品質なアノテーションを生成する。
MER-OVトラックでは,オープンボキャブラリアノテーションにEmotion-LLaMAを用いることで,GPT-4Vと比較して平均精度とリコールが8.52%向上した。
論文 参考訳(メタデータ) (2024-08-20T02:46:03Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - LastResort at SemEval-2024 Task 3: Exploring Multimodal Emotion Cause Pair Extraction as Sequence Labelling Task [3.489826905722736]
SemEval 2024は会話におけるマルチモーダル感情原因分析のタスクを導入している。
本稿では,この課題を発話ラベリングとシーケンスラベリングの問題として扱うモデルを提案する。
このタスクの公式リーダーボードでは、私たちのアーキテクチャは8位にランクされ、リーダーボードのF1スコアは0.1759でした。
論文 参考訳(メタデータ) (2024-04-02T16:32:49Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。