論文の概要: DEEMO: De-identity Multimodal Emotion Recognition and Reasoning
- arxiv url: http://arxiv.org/abs/2504.19549v1
- Date: Mon, 28 Apr 2025 07:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.351437
- Title: DEEMO: De-identity Multimodal Emotion Recognition and Reasoning
- Title(参考訳): DEEMO:非同一性マルチモーダル感情認識と推論
- Authors: Deng Li, Bohao Xing, Xin Liu, Baiqiang Xia, Bihan Wen, Heikki Kälviäinen,
- Abstract要約: DEEMO(De-identity Multimodal Emotion Recognition and Reasoning)を紹介する。
DEEMOは、非識別ビデオと音声入力を用いた感情理解を可能にするために設計された新しいタスクである。
さらに,特定されていない音声,ビデオ,テキスト情報を統合したMLLM(Multimodal Large Language Model)のDEEMO-LLaMAを提案する。
- 参考スコア(独自算出の注目度): 18.92907860700803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion understanding is a critical yet challenging task. Most existing approaches rely heavily on identity-sensitive information, such as facial expressions and speech, which raises concerns about personal privacy. To address this, we introduce the De-identity Multimodal Emotion Recognition and Reasoning (DEEMO), a novel task designed to enable emotion understanding using de-identified video and audio inputs. The DEEMO dataset consists of two subsets: DEEMO-NFBL, which includes rich annotations of Non-Facial Body Language (NFBL), and DEEMO-MER, an instruction dataset for Multimodal Emotion Recognition and Reasoning using identity-free cues. This design supports emotion understanding without compromising identity privacy. In addition, we propose DEEMO-LLaMA, a Multimodal Large Language Model (MLLM) that integrates de-identified audio, video, and textual information to enhance both emotion recognition and reasoning. Extensive experiments show that DEEMO-LLaMA achieves state-of-the-art performance on both tasks, outperforming existing MLLMs by a significant margin, achieving 74.49% accuracy and 74.45% F1-score in de-identity emotion recognition, and 6.20 clue overlap and 7.66 label overlap in de-identity emotion reasoning. Our work contributes to ethical AI by advancing privacy-preserving emotion understanding and promoting responsible affective computing.
- Abstract(参考訳): 感情の理解は批判的だが難しい課題だ。
既存のアプローチのほとんどは、顔の表情やスピーチなど、アイデンティティに敏感な情報に大きく依存しているため、個人のプライバシーに対する懸念が高まる。
そこで本稿では,非識別ビデオと音声入力を用いた感情理解を実現するための新しいタスクとして,DEEMO(De-identity Multimodal Emotion Recognition and Reasoning)を提案する。
DEEMOデータセットは、NFBL(Non-Facial Body Language)の豊富なアノテーションを含むDEEMO-NFBLと、IDのないキューを用いたマルチモーダル感情認識と推論のための命令データセットであるDEEMO-MERの2つのサブセットで構成されている。
このデザインは、アイデンティティのプライバシーを損なうことなく感情理解をサポートする。
さらに,感情認識と推論の両方を強化するために,識別されていない音声,ビデオ,テキスト情報を統合したマルチモーダル大言語モデル(MLLM)であるDEEMO-LLaMAを提案する。
DEEMO-LLaMAは両方のタスクで最先端のパフォーマンスを達成し、既存のMLLMをかなり上回り、74.49%の精度と74.45%のF1スコア、6.20の手がかり重なりと7.66のラベル重なりの非同一性感情推論を達成した。
我々の研究は、プライバシーを守る感情理解を促進し、責任ある感情的コンピューティングを促進することによって倫理的AIに寄与する。
関連論文リスト
- Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis [6.387263468033964]
自己レビューデータセットと人間レビューデータセットを導入し,24,137個の粗粒度サンプルと3,500個の手作業で詳細な感情アノテーションを付加したアノテートサンプルを作成した。
音声モデリングに加えて,既存の高度なビデオMLLMに顔符号化モデルを明示的に統合することを提案する。
我々のOmni-Emotionは、感情認識と推論の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-16T12:27:05Z) - EmoVerse: Exploring Multimodal Large Language Models for Sentiment and Emotion Understanding [5.3848462080869215]
Emotion Universe (EmoVerse) は、感情や感情に関連する幅広いタスクを扱うためのMLLMである。
EmoVerseは感情状態の根本原因を深く分析することができる。
また、Affective Multitask (AMT)データセットについても紹介する。
論文 参考訳(メタデータ) (2024-12-11T02:55:00Z) - AER-LLM: Ambiguity-aware Emotion Recognition Leveraging Large Language Models [18.482881562645264]
この研究は、あいまいな感情を認識する上でのLarge Language Models(LLM)の可能性を探究する最初のものである。
我々はゼロショットと少数ショットのプロンプトを設計し、過去の対話を曖昧な感情認識のための文脈情報として組み込んだ。
論文 参考訳(メタデータ) (2024-09-26T23:25:21Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Think out Loud: Emotion Deducing Explanation in Dialogues [57.90554323226896]
対話における感情推論(Emotion Deducing Explanation in Dialogues)を提案する。
EDENは感情と原因を明確な考え方で認識する。
大規模言語モデル(LLM)が感情や原因をよりよく認識するのに役立ちます。
論文 参考訳(メタデータ) (2024-06-07T08:58:29Z) - EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-02-19T11:48:09Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。