論文の概要: A Dual-Stream Recurrence-Attention Network With Global-Local Awareness
for Emotion Recognition in Textual Dialog
- arxiv url: http://arxiv.org/abs/2307.00449v2
- Date: Wed, 22 Nov 2023 15:43:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 18:54:04.268614
- Title: A Dual-Stream Recurrence-Attention Network With Global-Local Awareness
for Emotion Recognition in Textual Dialog
- Title(参考訳): テキスト対話における感情認識のためのグローバルローカル認識を用いたデュアルストリーム再帰ネットワーク
- Authors: Jiang Li, Xiaoping Wang, Zhigang Zeng
- Abstract要約: 本稿では,DualRAN(Dualstream Recurrence-Attention Network)を提案する。
DualRANは、現在のメソッドの複雑なコンポーネントを排除し、繰り返しベースのメソッドと注意ベースのメソッドを組み合わせることに焦点を当てている。
重み付きF1スコアは,IEMOCAPとMELDデータセットでそれぞれ1.43%,0.64%向上している。
- 参考スコア(独自算出の注目度): 41.72374101704424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world dialog systems, the ability to understand the user's emotions
and interact anthropomorphically is of great significance. Emotion Recognition
in Conversation (ERC) is one of the key ways to accomplish this goal and has
attracted growing attention. How to model the context in a conversation is a
central aspect and a major challenge of ERC tasks. Most existing approaches
struggle to adequately incorporate both global and local contextual
information, and their network structures are overly sophisticated. For this
reason, we propose a simple and effective Dual-stream Recurrence-Attention
Network (DualRAN), which is based on Recurrent Neural Network (RNN) and
Multi-head ATtention network (MAT). DualRAN eschews the complex components of
current methods and focuses on combining recurrence-based methods with
attention-based ones. DualRAN is a dual-stream structure mainly consisting of
local- and global-aware modules, modeling a conversation simultaneously from
distinct perspectives. In addition, we develop two single-stream network
variants for DualRAN, i.e., SingleRANv1 and SingleRANv2. According to the
experimental findings, DualRAN boosts the weighted F1 scores by 1.43% and 0.64%
on the IEMOCAP and MELD datasets, respectively, in comparison to the strongest
baseline. On two other datasets (i.e., EmoryNLP and DailyDialog), our method
also attains competitive results.
- Abstract(参考訳): 現実世界の対話システムでは,ユーザの感情を理解し,人為的に対話する能力が非常に重要である。
会話における感情認識(erc)は、この目標を達成するための重要な方法の1つであり、注目を集めている。
会話におけるコンテキストのモデル化は、ERCタスクにおける中心的な側面であり、大きな課題である。
既存のアプローチのほとんどは、グローバルなコンテキスト情報とローカルなコンテキスト情報の両方を適切に組み込むのに苦労しています。
そこで本稿では,Recurrent Neural Network(RNN)とMulti-head Attention Network(MAT)をベースとした,シンプルで効果的なDual-stream Recurrence-Attention Network(DualRAN)を提案する。
DualRANは、現在のメソッドの複雑なコンポーネントを排除し、繰り返しベースのメソッドと注意ベースのメソッドを組み合わせることに焦点を当てている。
DualRANは、主にローカルおよびグローバルなモジュールで構成され、異なる視点から会話を同時にモデル化するデュアルストリーム構造である。
さらに,DualRAN,SingleRANv1,SingleRANv2の2つのシングルストリームネットワークバリアントを開発した。
実験結果によると、Dualranは、最強のベースラインと比較して、IEMOCAPとMELDデータセットにおいて、重み付けされたF1スコアを1.43%、0.64%向上させる。
他の2つのデータセット(EmoryNLPとDailyDialog)では、競合する結果が得られる。
関連論文リスト
- BCLNet: Bilateral Consensus Learning for Two-View Correspondence Pruning [26.400567961735234]
対応プルーニングは、2つの関連する画像間の信頼性の高い対応を確立することを目的としている。
既存のアプローチでは、ローカルとグローバルのコンテキストを扱うために、プログレッシブな戦略を採用することが多い。
本稿では,2視点対応型プルーニングタスクにおいて,双方向のコンセンサスを取得するための並列コンテキスト学習戦略を提案する。
論文 参考訳(メタデータ) (2024-01-07T11:38:15Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - PIN: A Novel Parallel Interactive Network for Spoken Language
Understanding [68.53121591998483]
既存の RNN ベースのアプローチでは、ID と SF のタスクは、それらの間の相関情報を利用するために、しばしば共同でモデル化される。
SNIPSとATISという2つのベンチマークデータセットによる実験は、我々のアプローチの有効性を実証している。
さらに,事前学習した言語モデルBERTが生成した発話の特徴埋め込みを用いて,提案手法はすべての比較手法の中で最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-09-28T15:59:31Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。