論文の概要: E3RG: Building Explicit Emotion-driven Empathetic Response Generation System with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2508.12854v1
- Date: Mon, 18 Aug 2025 11:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.270049
- Title: E3RG: Building Explicit Emotion-driven Empathetic Response Generation System with Multimodal Large Language Model
- Title(参考訳): E3RG:マルチモーダル大言語モデルを用いた明示的感情駆動型共感応答生成システムの構築
- Authors: Ronghao Lin, Shuai Shen, Weipeng Hu, Qiaolin He, Aolin Xiong, Li Huang, Haifeng Hu, Yap-peng Tan,
- Abstract要約: 本稿では,感情駆動型感情応答生成システムであるE3RGを提案する。
MERGタスクは、マルチモーダル共感理解、共感記憶検索、マルチモーダル応答生成という3つの部分に分けられる。
E3RGは、追加のトレーニングなしで自然で、感情的に豊かで、アイデンティティに一貫性のある応答を提供する。
- 参考スコア(独自算出の注目度): 29.365394882190316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Empathetic Response Generation (MERG) is crucial for building emotionally intelligent human-computer interactions. Although large language models (LLMs) have improved text-based ERG, challenges remain in handling multimodal emotional content and maintaining identity consistency. Thus, we propose E3RG, an Explicit Emotion-driven Empathetic Response Generation System based on multimodal LLMs which decomposes MERG task into three parts: multimodal empathy understanding, empathy memory retrieval, and multimodal response generation. By integrating advanced expressive speech and video generative models, E3RG delivers natural, emotionally rich, and identity-consistent responses without extra training. Experiments validate the superiority of our system on both zero-shot and few-shot settings, securing Top-1 position in the Avatar-based Multimodal Empathy Challenge on ACM MM 25. Our code is available at https://github.com/RH-Lin/E3RG.
- Abstract(参考訳): マルチモーダル共感応答生成(MERG)は、感情的に知能な人間とコンピュータの相互作用を構築する上で重要である。
大規模言語モデル(LLM)はテキストベースのERGを改善しているが、マルチモーダルな感情的コンテンツを扱うことやアイデンティティの整合性の維持には依然として課題がある。
そこで本稿では,MERGタスクをマルチモーダル共感理解,共感記憶検索,マルチモーダル応答生成という3つの部分に分割したマルチモーダルLLMに基づく感情駆動型感情応答生成システムであるE3RGを提案する。
高度な表現型音声とビデオ生成モデルを統合することで、E3RGは、追加のトレーニングなしで自然な、感情的にリッチで、アイデンティティに一貫性のある応答を提供する。
ACM MM 25におけるマルチモーダル・エンパシー・チャレンジにおいて, ゼロショットと少数ショットの双方において, システムの優位性を検証し, 上位1位を確保した。
私たちのコードはhttps://github.com/RH-Lin/E3RGで公開されています。
関連論文リスト
- MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models [27.195518991292488]
EmoBench-Mは、マルチモーダル大言語モデル(MLLM)の感情知能(EI)能力を評価するために設計された新しいベンチマークである。
EmoBench-M上でのオープンソースとクローズドソース両方のMLLMの評価は、彼らと人間の間に大きなパフォーマンスギャップがあることを示している。
論文 参考訳(メタデータ) (2025-02-06T18:13:35Z) - EmoVerse: Exploring Multimodal Large Language Models for Sentiment and Emotion Understanding [5.3848462080869215]
Emotion Universe (EmoVerse) は、感情や感情に関連する幅広いタスクを扱うためのMLLMである。
EmoVerseは感情状態の根本原因を深く分析することができる。
また、Affective Multitask (AMT)データセットについても紹介する。
論文 参考訳(メタデータ) (2024-12-11T02:55:00Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。