論文の概要: A Contextualized Real-Time Multimodal Emotion Recognition for
Conversational Agents using Graph Convolutional Networks in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.18363v1
- Date: Tue, 24 Oct 2023 14:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:39:40.953320
- Title: A Contextualized Real-Time Multimodal Emotion Recognition for
Conversational Agents using Graph Convolutional Networks in Reinforcement
Learning
- Title(参考訳): 強化学習におけるグラフ畳み込みネットワークを用いた会話エージェントの文脈化リアルタイムマルチモーダル感情認識
- Authors: Fathima Abdul Rahman, Guang Lu
- Abstract要約: 強化学習(conER-GRL)を用いたグラフ畳み込みネットワークを用いた文脈的感情認識のための新しいパラダイムを提案する。
会話は、文脈情報の効果的な抽出のために、発話の小さなグループに分割される。
このシステムは、GRU(Gated Recurrent Units)を用いて、これらの発話群からマルチモーダル特徴を抽出する。
- 参考スコア(独自算出の注目度): 0.800062359410795
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Owing to the recent developments in Generative Artificial Intelligence
(GenAI) and Large Language Models (LLM), conversational agents are becoming
increasingly popular and accepted. They provide a human touch by interacting in
ways familiar to us and by providing support as virtual companions. Therefore,
it is important to understand the user's emotions in order to respond
considerately. Compared to the standard problem of emotion recognition,
conversational agents face an additional constraint in that recognition must be
real-time. Studies on model architectures using audio, visual, and textual
modalities have mainly focused on emotion classification using full video
sequences that do not provide online features. In this work, we present a novel
paradigm for contextualized Emotion Recognition using Graph Convolutional
Network with Reinforcement Learning (conER-GRL). Conversations are partitioned
into smaller groups of utterances for effective extraction of contextual
information. The system uses Gated Recurrent Units (GRU) to extract multimodal
features from these groups of utterances. More importantly, Graph Convolutional
Networks (GCN) and Reinforcement Learning (RL) agents are cascade trained to
capture the complex dependencies of emotion features in interactive scenarios.
Comparing the results of the conER-GRL model with other state-of-the-art models
on the benchmark dataset IEMOCAP demonstrates the advantageous capabilities of
the conER-GRL architecture in recognizing emotions in real-time from multimodal
conversational signals.
- Abstract(参考訳): 最近の生成型人工知能(genai)と大規模言語モデル(llm)の発展により、会話エージェントはますます普及し、受け入れられている。
身近な方法でインタラクションし、仮想的なコンパニオンとしてサポートすることで、ヒューマンタッチを提供します。
したがって、ユーザの感情を理解して慎重に反応することが重要である。
感情認識の標準的な問題と比較すると、会話エージェントはリアルタイムでなければならないという追加の制約に直面している。
音声、視覚、テキストのモダリティを用いたモデルアーキテクチャの研究は、オンライン機能を提供しないフルビデオシーケンスを用いた感情分類に重点を置いている。
本稿では,グラフ畳み込みネットワークと強化学習(coner-grl)を用いたコンテキスト化感情認識のための新しいパラダイムを提案する。
会話は、文脈情報の効果的な抽出のために、発話の小さなグループに分割される。
このシステムは、GRU(Gated Recurrent Units)を用いて、これらの発話群からマルチモーダル特徴を抽出する。
さらに重要なことに、グラフ畳み込みネットワーク(gcn)と強化学習(rl)エージェントは、インタラクティブなシナリオにおける感情機能の複雑な依存関係を捉えるために訓練される。
ConER-GRLモデルとベンチマークデータセット上の他の最先端モデルを比較して、IEMOCAPはマルチモーダルな会話信号からリアルタイムで感情を認識する際に、conER-GRLアーキテクチャの利点を示す。
関連論文リスト
- Capturing Spectral and Long-term Contextual Information for Speech
Emotion Recognition Using Deep Learning Techniques [0.0]
本研究では,テキストデータ処理のためのグラフ畳み込みネットワーク(GCN)と,音声信号解析のためのHuBERT変換器を組み合わせたアンサンブルモデルを提案する。
GCNとHuBERTを組み合わせることで、我々のアンサンブルモデルは両方のアプローチの強みを利用することができる。
その結果, 合成モデルが従来の手法の限界を克服し, 音声からの感情認識の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-08-04T06:20:42Z) - EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文 参考訳(メタデータ) (2023-06-14T17:52:37Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - AU-Expression Knowledge Constrained Representation Learning for Facial
Expression Recognition [79.8779790682205]
本稿では,auアノテーションを使わずにau表現を学習し,表情認識を容易にするau表現知識制約表現学習(aue-crl)フレームワークを提案する。
課題のある非制御データセットの実験を行い,提案されたフレームワークが現状の手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-12-29T03:42:04Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。