Fugu-MT 論文翻訳(概要): A Contextualized Real-Time Multimodal Emotion Recognition for Conversational Agents using Graph Convolutional Networks in Reinforcement Learning

論文の概要: A Contextualized Real-Time Multimodal Emotion Recognition for Conversational Agents using Graph Convolutional Networks in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.18363v1
Date: Tue, 24 Oct 2023 14:31:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-05 13:39:40.953320
Title: A Contextualized Real-Time Multimodal Emotion Recognition for Conversational Agents using Graph Convolutional Networks in Reinforcement Learning
Title（参考訳）: 強化学習におけるグラフ畳み込みネットワークを用いた会話エージェントの文脈化リアルタイムマルチモーダル感情認識
Authors: Fathima Abdul Rahman, Guang Lu
Abstract要約: 強化学習(conER-GRL)を用いたグラフ畳み込みネットワークを用いた文脈的感情認識のための新しいパラダイムを提案する。会話は、文脈情報の効果的な抽出のために、発話の小さなグループに分割される。このシステムは、GRU(Gated Recurrent Units)を用いて、これらの発話群からマルチモーダル特徴を抽出する。
参考スコア（独自算出の注目度）: 0.800062359410795
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Owing to the recent developments in Generative Artificial Intelligence (GenAI) and Large Language Models (LLM), conversational agents are becoming increasingly popular and accepted. They provide a human touch by interacting in ways familiar to us and by providing support as virtual companions. Therefore, it is important to understand the user's emotions in order to respond considerately. Compared to the standard problem of emotion recognition, conversational agents face an additional constraint in that recognition must be real-time. Studies on model architectures using audio, visual, and textual modalities have mainly focused on emotion classification using full video sequences that do not provide online features. In this work, we present a novel paradigm for contextualized Emotion Recognition using Graph Convolutional Network with Reinforcement Learning (conER-GRL). Conversations are partitioned into smaller groups of utterances for effective extraction of contextual information. The system uses Gated Recurrent Units (GRU) to extract multimodal features from these groups of utterances. More importantly, Graph Convolutional Networks (GCN) and Reinforcement Learning (RL) agents are cascade trained to capture the complex dependencies of emotion features in interactive scenarios. Comparing the results of the conER-GRL model with other state-of-the-art models on the benchmark dataset IEMOCAP demonstrates the advantageous capabilities of the conER-GRL architecture in recognizing emotions in real-time from multimodal conversational signals.
Abstract（参考訳）: 最近の生成型人工知能(genai)と大規模言語モデル(llm)の発展により、会話エージェントはますます普及し、受け入れられている。身近な方法でインタラクションし、仮想的なコンパニオンとしてサポートすることで、ヒューマンタッチを提供します。したがって、ユーザの感情を理解して慎重に反応することが重要である。感情認識の標準的な問題と比較すると、会話エージェントはリアルタイムでなければならないという追加の制約に直面している。音声、視覚、テキストのモダリティを用いたモデルアーキテクチャの研究は、オンライン機能を提供しないフルビデオシーケンスを用いた感情分類に重点を置いている。本稿では,グラフ畳み込みネットワークと強化学習(coner-grl)を用いたコンテキスト化感情認識のための新しいパラダイムを提案する。会話は、文脈情報の効果的な抽出のために、発話の小さなグループに分割される。このシステムは、GRU(Gated Recurrent Units)を用いて、これらの発話群からマルチモーダル特徴を抽出する。さらに重要なことに、グラフ畳み込みネットワーク(gcn)と強化学習(rl)エージェントは、インタラクティブなシナリオにおける感情機能の複雑な依存関係を捉えるために訓練される。 ConER-GRLモデルとベンチマークデータセット上の他の最先端モデルを比較して、IEMOCAPはマルチモーダルな会話信号からリアルタイムで感情を認識する際に、conER-GRLアーキテクチャの利点を示す。

関連論文リスト

Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文参考訳（メタデータ） (2024-12-30T14:09:15Z)
Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文参考訳（メタデータ） (2024-12-21T02:22:06Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
Capturing Spectral and Long-term Contextual Information for Speech Emotion Recognition Using Deep Learning Techniques [0.0]
本研究では,テキストデータ処理のためのグラフ畳み込みネットワーク(GCN)と,音声信号解析のためのHuBERT変換器を組み合わせたアンサンブルモデルを提案する。 GCNとHuBERTを組み合わせることで、我々のアンサンブルモデルは両方のアプローチの強みを利用することができる。その結果, 合成モデルが従来の手法の限界を克服し, 音声からの感情認識の精度が向上することが示唆された。
論文参考訳（メタデータ） (2023-08-04T06:20:42Z)
EMERSK -- Explainable Multimodal Emotion Recognition with Situational Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。 EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文参考訳（メタデータ） (2023-06-14T17:52:37Z)
EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。 EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2023-03-20T13:58:35Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。 VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文参考訳（メタデータ） (2021-12-08T09:49:28Z)
Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。実験により,より正確なAERモデルの有効性が示された。
論文参考訳（メタデータ） (2021-09-15T08:21:01Z)
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。 SERの主な課題の1つは、データの不足である。本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文参考訳（メタデータ） (2021-08-05T10:39:39Z)
AU-Expression Knowledge Constrained Representation Learning for Facial Expression Recognition [79.8779790682205]
本稿では,auアノテーションを使わずにau表現を学習し,表情認識を容易にするau表現知識制約表現学習(aue-crl)フレームワークを提案する。課題のある非制御データセットの実験を行い,提案されたフレームワークが現状の手法よりも優れていることを実証する。
論文参考訳（メタデータ） (2020-12-29T03:42:04Z)
Speech Command Recognition in Computationally Constrained Environments with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文参考訳（メタデータ） (2020-11-23T14:40:18Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。