論文の概要: A Comprehensive Survey on Multi-modal Conversational Emotion Recognition
with Deep Learning
- arxiv url: http://arxiv.org/abs/2312.05735v1
- Date: Sun, 10 Dec 2023 03:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:00:34.188395
- Title: A Comprehensive Survey on Multi-modal Conversational Emotion Recognition
with Deep Learning
- Title(参考訳): ディープラーニングを用いたマルチモーダル会話感情認識に関する総合的研究
- Authors: Yuntao Shou, Tao Meng, Wei Ai, Nan Yin, Keqin Li
- Abstract要約: マルチモーダル会話感情認識(MCER)は、会話シーンにおけるテキスト、音声、視覚情報を用いて、話者の感情状態を認識し、追跡することを目的としている。
従来の単一発話のマルチモーダル感情認識や単一モーダルな会話感情認識とは異なり、MCERはより複雑な感情的相互作用の関連を扱う必要がある、より困難な問題である。
- 参考スコア(独自算出の注目度): 15.705757672984662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal conversation emotion recognition (MCER) aims to recognize and
track the speaker's emotional state using text, speech, and visual information
in the conversation scene. Analyzing and studying MCER issues is significant to
affective computing, intelligent recommendations, and human-computer
interaction fields. Unlike the traditional single-utterance multi-modal emotion
recognition or single-modal conversation emotion recognition, MCER is a more
challenging problem that needs to deal with more complex emotional interaction
relationships. The critical issue is learning consistency and complementary
semantics for multi-modal feature fusion based on emotional interaction
relationships. To solve this problem, people have conducted extensive research
on MCER based on deep learning technology, but there is still a lack of
systematic review of the modeling methods. Therefore, a timely and
comprehensive overview of MCER's recent advances in deep learning is of great
significance to academia and industry. In this survey, we provide a
comprehensive overview of MCER modeling methods and roughly divide MCER methods
into four categories, i.e., context-free modeling, sequential context modeling,
speaker-differentiated modeling, and speaker-relationship modeling. In
addition, we further discuss MCER's publicly available popular datasets,
multi-modal feature extraction methods, application areas, existing challenges,
and future development directions. We hope that our review can help MCER
researchers understand the current research status in emotion recognition,
provide some inspiration, and develop more efficient models.
- Abstract(参考訳): マルチモーダル会話感情認識(MCER)は、会話シーンにおけるテキスト、音声、視覚情報を用いて話者の感情状態を認識し、追跡することを目的としている。
MCER問題の解析と研究は、感情コンピューティング、インテリジェントなレコメンデーション、人間とコンピュータの相互作用分野において重要である。
従来の単一発話のマルチモーダル感情認識や単一モーダル会話感情認識とは異なり、mcerはより複雑な感情相互作用関係を扱う必要があるより難しい問題である。
重要な問題は、感情的相互作用関係に基づくマルチモーダル特徴融合のための一貫性と補完的意味論の学習である。
この問題を解決するために、深層学習技術に基づくmcerに関する広範な研究を行ったが、モデリング手法の体系的なレビューが不足している。
したがって、MCERのディープラーニングにおける最近の進歩のタイムリーで包括的な概要は、学術や産業にとって非常に重要である。
本研究では,mcerモデリング手法の包括的概要と,mcer手法を4つのカテゴリ(文脈自由モデリング,逐次文脈モデリング,話者微分モデリング,話者関係モデリング)に大まかに分割した。
さらに,MCERが公開している一般的なデータセット,マルチモーダル特徴抽出手法,アプリケーション領域,既存の課題,今後の開発方向性についても論じる。
我々は、MCER研究者が感情認識の現在の研究状況を理解し、いくつかのインスピレーションを与え、より効率的なモデルを開発するのに役立つことを期待している。
関連論文リスト
- From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Are Human Conversations Special? A Large Language Model Perspective [8.623471682333964]
本研究では、人間(人間)の自然な会話を理解するために、大規模言語モデル(LLM)の注意機構の変化を分析する。
その結果,言語モデルはドメイン固有の注意行動を示すが,人間の会話を専門化する能力には大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-03-08T04:44:25Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Building Emotional Support Chatbots in the Era of LLMs [64.06811786616471]
我々は,Large Language Models (LLMs) の計算能力で人間の洞察を合成する革新的な方法論を導入する。
また,ChatGPTの文脈内学習の可能性を利用して,ExTESと呼ばれる感情支援対話データセットを生成する。
次に、LLaMAモデルに高度なチューニング手法を展開し、多様なトレーニング戦略の影響を検証し、最終的に感情的支援の相互作用に細心の注意を払ってLLMを出力する。
論文 参考訳(メタデータ) (2023-08-17T10:49:18Z) - MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition [18.38506185117551]
音声感情認識(SER)は人間とコンピュータの相互作用において重要な研究課題である。
我々は,Multi-perspective Fusion Search Network (MFSN)と呼ばれる,SERにおける知識の事前学習のための新しいフレームワークを提案する。
包括性を考慮して、音声知識をテキスト関連感情コンテンツ(TEC)と音声関連感情コンテンツ(SEC)に分割する。
論文 参考訳(メタデータ) (2023-06-12T16:40:07Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Enabling Harmonious Human-Machine Interaction with Visual-Context
Augmented Dialogue System: A Review [40.49926141538684]
Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。
VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
論文 参考訳(メタデータ) (2022-07-02T09:31:37Z) - Multimodal Conversational AI: A Survey of Datasets and Approaches [0.76146285961466]
マルチモーダルな会話AIシステムは、質問に答え、タスクを実行し、複数のモーダルを通して自分自身を理解し、表現することで人間の会話をエミュレートする。
本稿では,多モーダル会話研究の目的を動機づけ,定義し,数学的に定式化する。
論文 参考訳(メタデータ) (2022-05-13T21:51:42Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Variants of BERT, Random Forests and SVM approach for Multimodal
Emotion-Target Sub-challenge [11.71437054341057]
本稿では,Muse-Topic Sub-Challengeの分類手法について論じる。
ALBERTとRoBERTaの2つの言語モデルをアンサンブルして10種類のトピックを予測する。
論文 参考訳(メタデータ) (2020-07-28T01:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。