Fugu-MT 論文翻訳(概要): SI-LSTM: Speaker Hybrid Long-short Term Memory and Cross Modal Attention for Emotion Recognition in Conversation

論文の概要: SI-LSTM: Speaker Hybrid Long-short Term Memory and Cross Modal Attention for Emotion Recognition in Conversation

arxiv url: http://arxiv.org/abs/2305.03506v2
Date: Sun, 4 Jun 2023 03:04:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 01:39:16.804455
Title: SI-LSTM: Speaker Hybrid Long-short Term Memory and Cross Modal Attention for Emotion Recognition in Conversation
Title（参考訳）: SI-LSTM:会話における感情認識のための話者ハイブリッド長短記憶とクロスモーダル注意
Authors: Xingwei Liang, You Zou, Ruifeng Xu
Abstract要約: 会話における感情認識(ERC)は、インテリジェントヘルスケア、会話のための人工知能、チャット履歴に対する意見マイニングなど、さまざまなアプリケーションにとって極めて重要である。 ERCの要点は、会話全体を通して、相互モダリティと相互時間相互作用の両方をモデル化することである。従来の方法では,会話の時系列情報を学習する一方で,会話における各話者の異なる感情状態を追跡する能力が欠如している。
参考スコア（独自算出の注目度）: 16.505046191280634
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotion Recognition in Conversation~(ERC) across modalities is of vital importance for a variety of applications, including intelligent healthcare, artificial intelligence for conversation, and opinion mining over chat history. The crux of ERC is to model both cross-modality and cross-time interactions throughout the conversation. Previous methods have made progress in learning the time series information of conversation while lacking the ability to trace down the different emotional states of each speaker in a conversation. In this paper, we propose a recurrent structure called Speaker Information Enhanced Long-Short Term Memory (SI-LSTM) for the ERC task, where the emotional states of the distinct speaker can be tracked in a sequential way to enhance the learning of the emotion in conversation. Further, to improve the learning of multimodal features in ERC, we utilize a cross-modal attention component to fuse the features between different modalities and model the interaction of the important information from different modalities. Experimental results on two benchmark datasets demonstrate the superiority of the proposed SI-LSTM against the state-of-the-art baseline methods in the ERC task on multimodal data.
Abstract（参考訳）: 会話における感情認識(erc)は、インテリジェントな医療、会話のための人工知能、チャット履歴に関する意見のマイニングなど、さまざまなアプリケーションにとって極めて重要である。 ERCの要点は、会話全体での相互モダリティと相互時間相互作用の両方をモデル化することである。従来の方法では,会話の時系列情報を学習する一方で,会話における各話者の異なる感情状態を追跡する能力が欠如している。本稿では,ERCタスクにおける話者情報強化長短記憶(SI-LSTM)と呼ばれる繰り返し構造を提案する。さらに、ercにおけるマルチモーダル特徴の学習を改善するために、クロスモーダル注意成分を用いて、異なるモーダリティ間の特徴を融合させ、異なるモーダリティから重要な情報の相互作用をモデル化する。 2つのベンチマークデータセットの実験結果は、マルチモーダルデータに基づくERCタスクにおける最先端のベースライン手法に対する提案したSI-LSTMの優位性を示している。

関連論文リスト

Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文参考訳（メタデータ） (2026-02-10T14:31:11Z)
TAVID: Text-Driven Audio-Visual Interactive Dialogue Generation [72.46711449668814]
本稿では,対話型顔と会話型音声の両方を同期的に生成する統合フレームワークであるTAVIDを紹介する。本システムの評価は, 顔のリアリズム, 頭部の応答性, ダイアディック相互作用, 音声品質の4つの側面にまたがる。
論文参考訳（メタデータ） (2025-12-23T12:04:23Z)
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。 EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T20:29:01Z)
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [105.88658935310605]
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
論文参考訳（メタデータ） (2025-01-03T18:59:52Z)
Mamba-Enhanced Text-Audio-Video Alignment Network for Emotion Recognition in Conversations [15.748798247815298]
本稿では,会話における感情認識のための新しいマンバエンハンステキスト・ビデオアライメントネットワーク(MaTAV)を提案する。 MaTAVは、異なるモダリティ間の整合性を確保するためにユニモーダル機能を整列させ、コンテキストのマルチモーダル情報をよりよくキャプチャするために長い入力シーケンスを処理するという利点がある。
論文参考訳（メタデータ） (2024-09-08T23:09:22Z)
MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis [70.06396781553191]
MM-TTS(Multimodal Emotional Text-to-Speech System)は、複数のモーダルからの感情的手がかりを利用して、高表現的で感情的に共鳴する音声を生成する統合フレームワークである。 Emotion Prompt Alignment Module (EP-Align),Emotion Embedding-induced TTS (EMI-TTS),Emotion Embedding-induced TTS (Emotion Embedding-induced TTS) の2つの主要なコンポーネントで構成されている。
論文参考訳（メタデータ） (2024-04-29T03:19:39Z)
AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文参考訳（メタデータ） (2024-04-12T11:31:18Z)
TelME: Teacher-leading Multimodal Fusion Network for Emotion Recognition in Conversation [0.78452977096722]
TelMEは、教師として働く言語モデルから非言語学生に情報を伝達するために、クロスモーダルな知識蒸留を取り入れている。次に、学生ネットワークが教師を支援するシフト・フュージョン・アプローチを用いて、マルチモーダルな特徴を組み合わせる。
論文参考訳（メタデータ） (2024-01-16T07:18:41Z)
Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。 CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2023-11-08T07:46:25Z)
Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2023-08-08T18:11:27Z)
A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition [54.44337276044968]
低ランクマッチング注意法(LMAM)と呼ばれる新しい軽量クロスモーダル機能融合法を提案する。 LMAMは、会話における文脈的感情的意味情報を効果的に捉え、自己認識機構によって引き起こされる二次的複雑性問題を緩和する。実験により, LMAMの軽量化を前提として, 他の一般的な相互拡散法と比較し, LMAMの優位性を検証した。
論文参考訳（メタデータ） (2023-06-16T16:02:44Z)
M2FNet: Multi-modal Fusion Network for Emotion Recognition in Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文参考訳（メタデータ） (2022-06-05T14:18:58Z)
End-to-end Spoken Conversational Question Answering: Task, Dataset and Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文参考訳（メタデータ） (2022-04-29T17:56:59Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。