論文の概要: BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation
- arxiv url: http://arxiv.org/abs/2503.23990v1
- Date: Mon, 31 Mar 2025 12:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:39.008365
- Title: BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation
- Title(参考訳): BeMERC:会話におけるマルチモーダル感情認識のための行動認識型MLLMフレームワーク
- Authors: Yumeng Fu, Junjie Wu, Zhongjie Wang, Meishan Zhang, Yulin Wu, Bingquan Liu,
- Abstract要約: 本稿では,ビニラMLLMに基づくMERCモデルに話者の振る舞いを組み込む行動認識型MLLMベースのフレームワーク(BeMERC)を提案する。
BeMERCは2つのベンチマークデータセットの最先端手法よりも優れた性能を実現している。
- 参考スコア(独自算出の注目度): 29.514459004019024
- License:
- Abstract: Multimodal emotion recognition in conversation (MERC), the task of identifying the emotion label for each utterance in a conversation, is vital for developing empathetic machines. Current MLLM-based MERC studies focus mainly on capturing the speaker's textual or vocal characteristics, but ignore the significance of video-derived behavior information. Different from text and audio inputs, learning videos with rich facial expression, body language and posture, provides emotion trigger signals to the models for more accurate emotion predictions. In this paper, we propose a novel behavior-aware MLLM-based framework (BeMERC) to incorporate speaker's behaviors, including subtle facial micro-expression, body language and posture, into a vanilla MLLM-based MERC model, thereby facilitating the modeling of emotional dynamics during a conversation. Furthermore, BeMERC adopts a two-stage instruction tuning strategy to extend the model to the conversations scenario for end-to-end training of a MERC predictor. Experiments demonstrate that BeMERC achieves superior performance than the state-of-the-art methods on two benchmark datasets, and also provides a detailed discussion on the significance of video-derived behavior information in MERC.
- Abstract(参考訳): 会話中の発話毎の感情ラベルを識別するタスクである会話におけるマルチモーダル感情認識(MERC)は共感機械の開発に不可欠である。
現在のMLLMに基づくMERC研究は、主に話者のテキストや声の特徴を捉えることに重点を置いているが、ビデオからの行動情報の重要性は無視している。
テキストや音声入力と異なり、豊かな表情、ボディランゲージ、姿勢でビデオを学ぶことで、より正確な感情予測のためにモデルに感情トリガー信号を提供する。
本稿では,バニラMLLMに基づくMERCモデルに,微妙な顔のマイクロ圧縮,ボディランゲージ,姿勢などの話者の振る舞いを取り入れた行動認識型MLLMフレームワーク(BeMERC)を提案し,会話中の感情力学のモデル化を容易にする。
さらに、BeMERCは、MERC予測器のエンドツーエンドトレーニングのための会話シナリオにモデルを拡張するために、2段階の命令チューニング戦略を採用している。
実験により、BeMERCは2つのベンチマークデータセットの最先端手法よりも優れた性能を示し、また、MERCにおけるビデオ由来の行動情報の重要性について詳細な議論を行っている。
関連論文リスト
- Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis [6.387263468033964]
自己レビューデータセットと人間レビューデータセットを導入し,24,137個の粗粒度サンプルと3,500個の手作業で詳細な感情アノテーションを付加したアノテートサンプルを作成した。
音声モデリングに加えて,既存の高度なビデオMLLMに顔符号化モデルを明示的に統合することを提案する。
我々のOmni-Emotionは、感情認識と推論の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-16T12:27:05Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues [0.0]
本稿では,局所的な顔マイクロ圧縮のダイナミクスに注意を向け,時間に敏感なマルチモーダル言語モデル(MLLM)を提案する。
本モデルでは,(1)グローバルなフレームレベル・タイムスタンプ結合画像特徴とマイクロ表現の時間的ダイナミクスの局所的な顔特徴とを融合したグローバルな視覚的エンコーダ,(2)発話セグメントごとに視覚的トークンシーケンスを生成し,それらを組み合わせてマルチスケールおよび文脈的依存関係をキャプチャする発話認識ビデオQ-Formerの2つのアーキテクチャ的コントリビューションを取り入れた。
論文 参考訳(メタデータ) (2024-07-23T15:05:55Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - BLSP-Emo: Towards Empathetic Large Speech-Language Models [34.62210186235263]
BLSP-Emoは、音声における意味と感情の両方を理解可能なエンドツーエンドの音声言語モデルを開発するための新しいアプローチである。
実験の結果,BLSP-Emoモデルでは,音声の理解と共感応答の伝達が優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T09:02:31Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - SI-LSTM: Speaker Hybrid Long-short Term Memory and Cross Modal Attention
for Emotion Recognition in Conversation [16.505046191280634]
会話における感情認識(ERC)は、インテリジェントヘルスケア、会話のための人工知能、チャット履歴に対する意見マイニングなど、さまざまなアプリケーションにとって極めて重要である。
ERCの要点は、会話全体を通して、相互モダリティと相互時間相互作用の両方をモデル化することである。
従来の方法では,会話の時系列情報を学習する一方で,会話における各話者の異なる感情状態を追跡する能力が欠如している。
論文 参考訳(メタデータ) (2023-05-04T10:13:15Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。