論文の概要: A Comprehensive Survey on Multi-modal Conversational Emotion Recognition
with Deep Learning
- arxiv url: http://arxiv.org/abs/2312.05735v1
- Date: Sun, 10 Dec 2023 03:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:00:34.188395
- Title: A Comprehensive Survey on Multi-modal Conversational Emotion Recognition
with Deep Learning
- Title(参考訳): ディープラーニングを用いたマルチモーダル会話感情認識に関する総合的研究
- Authors: Yuntao Shou, Tao Meng, Wei Ai, Nan Yin, Keqin Li
- Abstract要約: マルチモーダル会話感情認識(MCER)は、会話シーンにおけるテキスト、音声、視覚情報を用いて、話者の感情状態を認識し、追跡することを目的としている。
従来の単一発話のマルチモーダル感情認識や単一モーダルな会話感情認識とは異なり、MCERはより複雑な感情的相互作用の関連を扱う必要がある、より困難な問題である。
- 参考スコア(独自算出の注目度): 15.705757672984662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal conversation emotion recognition (MCER) aims to recognize and
track the speaker's emotional state using text, speech, and visual information
in the conversation scene. Analyzing and studying MCER issues is significant to
affective computing, intelligent recommendations, and human-computer
interaction fields. Unlike the traditional single-utterance multi-modal emotion
recognition or single-modal conversation emotion recognition, MCER is a more
challenging problem that needs to deal with more complex emotional interaction
relationships. The critical issue is learning consistency and complementary
semantics for multi-modal feature fusion based on emotional interaction
relationships. To solve this problem, people have conducted extensive research
on MCER based on deep learning technology, but there is still a lack of
systematic review of the modeling methods. Therefore, a timely and
comprehensive overview of MCER's recent advances in deep learning is of great
significance to academia and industry. In this survey, we provide a
comprehensive overview of MCER modeling methods and roughly divide MCER methods
into four categories, i.e., context-free modeling, sequential context modeling,
speaker-differentiated modeling, and speaker-relationship modeling. In
addition, we further discuss MCER's publicly available popular datasets,
multi-modal feature extraction methods, application areas, existing challenges,
and future development directions. We hope that our review can help MCER
researchers understand the current research status in emotion recognition,
provide some inspiration, and develop more efficient models.
- Abstract(参考訳): マルチモーダル会話感情認識(MCER)は、会話シーンにおけるテキスト、音声、視覚情報を用いて話者の感情状態を認識し、追跡することを目的としている。
MCER問題の解析と研究は、感情コンピューティング、インテリジェントなレコメンデーション、人間とコンピュータの相互作用分野において重要である。
従来の単一発話のマルチモーダル感情認識や単一モーダル会話感情認識とは異なり、mcerはより複雑な感情相互作用関係を扱う必要があるより難しい問題である。
重要な問題は、感情的相互作用関係に基づくマルチモーダル特徴融合のための一貫性と補完的意味論の学習である。
この問題を解決するために、深層学習技術に基づくmcerに関する広範な研究を行ったが、モデリング手法の体系的なレビューが不足している。
したがって、MCERのディープラーニングにおける最近の進歩のタイムリーで包括的な概要は、学術や産業にとって非常に重要である。
本研究では,mcerモデリング手法の包括的概要と,mcer手法を4つのカテゴリ(文脈自由モデリング,逐次文脈モデリング,話者微分モデリング,話者関係モデリング)に大まかに分割した。
さらに,MCERが公開している一般的なデータセット,マルチモーダル特徴抽出手法,アプリケーション領域,既存の課題,今後の開発方向性についても論じる。
我々は、MCER研究者が感情認識の現在の研究状況を理解し、いくつかのインスピレーションを与え、より効率的なモデルを開発するのに役立つことを期待している。
関連論文リスト
- Are Human Conversations Special? A Large Language Model Perspective [8.623471682333964]
本研究では、人間(人間)の自然な会話を理解するために、大規模言語モデル(LLM)の注意機構の変化を分析する。
その結果,言語モデルはドメイン固有の注意行動を示すが,人間の会話を専門化する能力には大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-03-08T04:44:25Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Building Emotional Support Chatbots in the Era of LLMs [64.06811786616471]
我々は,Large Language Models (LLMs) の計算能力で人間の洞察を合成する革新的な方法論を導入する。
また,ChatGPTの文脈内学習の可能性を利用して,ExTESと呼ばれる感情支援対話データセットを生成する。
次に、LLaMAモデルに高度なチューニング手法を展開し、多様なトレーニング戦略の影響を検証し、最終的に感情的支援の相互作用に細心の注意を払ってLLMを出力する。
論文 参考訳(メタデータ) (2023-08-17T10:49:18Z) - MFAS: Emotion Recognition through Multiple Perspectives Fusion
Architecture Search Emulating Human Cognition [10.998461754606131]
音声感情認識は、人間に似たターゲット音声における感情状態を特定し、分析することを目的としている。
連続的な視点から音声コンテンツを理解することによって、より包括的な感情情報を捉えることができることを示す。
我々はMFAS(Multiple perspectives Fusion Architecture Search)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:40:07Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [71.07658443380264]
様々なモダリティのデータを組み込んだマルチモーダル機械学習は、ますます人気のある研究分野になりつつある。
我々は、視覚、音声、テキストなど、各データフォーマットの共通点と特異点を分析し、Vision+Xの組み合わせによって分類された技術開発を提示する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Enabling Harmonious Human-Machine Interaction with Visual-Context
Augmented Dialogue System: A Review [40.49926141538684]
Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。
VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
論文 参考訳(メタデータ) (2022-07-02T09:31:37Z) - Multimodal Conversational AI: A Survey of Datasets and Approaches [0.76146285961466]
マルチモーダルな会話AIシステムは、質問に答え、タスクを実行し、複数のモーダルを通して自分自身を理解し、表現することで人間の会話をエミュレートする。
本稿では,多モーダル会話研究の目的を動機づけ,定義し,数学的に定式化する。
論文 参考訳(メタデータ) (2022-05-13T21:51:42Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Variants of BERT, Random Forests and SVM approach for Multimodal
Emotion-Target Sub-challenge [11.71437054341057]
本稿では,Muse-Topic Sub-Challengeの分類手法について論じる。
ALBERTとRoBERTaの2つの言語モデルをアンサンブルして10種類のトピックを予測する。
論文 参考訳(メタデータ) (2020-07-28T01:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。