論文の概要: Multimodal Emotion Recognition in Conversations: A Survey of Methods, Trends, Challenges and Prospects
- arxiv url: http://arxiv.org/abs/2505.20511v1
- Date: Mon, 26 May 2025 20:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.285993
- Title: Multimodal Emotion Recognition in Conversations: A Survey of Methods, Trends, Challenges and Prospects
- Title(参考訳): 会話におけるマルチモーダル感情認識:方法・傾向・課題・展望
- Authors: Chengyan Wu, Yiqiang Cai, Yang Liu, Pengxu Zhu, Yun Xue, Ziwei Gong, Julia Hirschberg, Bolei Ma,
- Abstract要約: 会話におけるマルチモーダル感情認識は、人間とコンピュータの相互作用の自然性と感情的理解を高めるための方向である。
その目標は、テキスト、音声、視覚信号などの様々なモダリティからの情報を統合することで、感情を正確に認識することである。
- 参考スコア(独自算出の注目度): 7.505690224453812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While text-based emotion recognition methods have achieved notable success, real-world dialogue systems often demand a more nuanced emotional understanding than any single modality can offer. Multimodal Emotion Recognition in Conversations (MERC) has thus emerged as a crucial direction for enhancing the naturalness and emotional understanding of human-computer interaction. Its goal is to accurately recognize emotions by integrating information from various modalities such as text, speech, and visual signals. This survey offers a systematic overview of MERC, including its motivations, core tasks, representative methods, and evaluation strategies. We further examine recent trends, highlight key challenges, and outline future directions. As interest in emotionally intelligent systems grows, this survey provides timely guidance for advancing MERC research.
- Abstract(参考訳): テキストベースの感情認識手法は顕著な成功を収めてきたが、現実世界の対話システムは、単一のモダリティが提供できるものよりも、より微妙な感情理解を要求することが多い。
会話におけるマルチモーダル感情認識(MERC)は、人間とコンピュータの相互作用の自然性と感情的理解を高める重要な方向として現れている。
その目標は、テキスト、音声、視覚信号などの様々なモダリティからの情報を統合することで、感情を正確に認識することである。
本調査は、そのモチベーション、コアタスク、代表的手法、評価戦略を含む、MERCの体系的な概要を提供する。
さらに、最近の傾向を調べ、重要な課題を浮き彫りにし、今後の方向性を概説する。
感情的にインテリジェントなシステムへの関心が高まるにつれて、この調査はMERC研究を進めるためのタイムリーなガイダンスを提供する。
関連論文リスト
- Bridging Cognition and Emotion: Empathy-Driven Multimodal Misinformation Detection [56.644686934050576]
ソーシャルメディアは情報発信の主流となっているが、誤報の急速な拡散を助長している。
従来の誤報検出法は主に表面的な特徴に焦点を合わせ、伝播過程における人間の共感の重要な役割を見落としている。
著者と読者の両方の視点から誤情報を分析するために、認知的・感情的共感を統合したデュアル・アスペクト・共感フレームワーク(DAE)を提案する。
論文 参考訳(メタデータ) (2025-04-24T07:48:26Z) - In-Depth Analysis of Emotion Recognition through Knowledge-Based Large Language Models [3.8153944233011385]
本稿では,文脈に基づく感情認識の新たな分野に寄与する。
本稿では,感情認識手法とベイジアンキュー統合を組み合わせたアプローチを提案する。
本手法は,受刑者のジレンマである社会的課題における表情の解釈の文脈で検証する。
論文 参考訳(メタデータ) (2024-07-17T06:39:51Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - From Multilingual Complexity to Emotional Clarity: Leveraging
Commonsense to Unveil Emotions in Code-Mixed Dialogues [38.87497808740538]
会話中の感情を理解することは人間のコミュニケーションの基本的な側面であり、会話における感情認識のためのNLP研究を推進している。
本稿では,感情のより深い理解を促進するために,コモンセンス情報を対話コンテキストと統合する革新的なアプローチを提案する。
総合的な実験により,ERCにおけるコモンセンスの体系的導入によって得られた実質的な性能向上が示された。
論文 参考訳(メタデータ) (2023-10-19T18:17:00Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Target Guided Emotion Aware Chat Machine [58.8346820846765]
意味レベルと感情レベルにおける投稿に対する応答の整合性は、人間のような対話を提供する対話システムにとって不可欠である。
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-11-15T01:55:37Z) - Knowledge Bridging for Empathetic Dialogue Generation [52.39868458154947]
外部知識の不足により、感情的な対話システムは暗黙の感情を知覚し、限られた対話履歴から感情的な対話を学ぶことが困難になる。
本研究では,情緒的対話生成における感情を明確に理解し,表現するために,常識的知識や情緒的語彙的知識などの外部知識を活用することを提案する。
論文 参考訳(メタデータ) (2020-09-21T09:21:52Z) - Temporal aggregation of audio-visual modalities for emotion recognition [0.5352699766206808]
本研究では,時間的オフセットの異なる時間的オフセットと時間的ウィンドウからの音声・視覚的モダリティを組み合わせた感情認識のためのマルチモーダル融合手法を提案する。
提案手法は,文献と人間の精度評価から,他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-08T18:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。