論文の概要: A Dual-Stream Recurrence-Attention Network with Global-Local Awareness
for Emotion Recognition in Textual Dialogue
- arxiv url: http://arxiv.org/abs/2307.00449v1
- Date: Sun, 2 Jul 2023 01:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 16:04:14.427533
- Title: A Dual-Stream Recurrence-Attention Network with Global-Local Awareness
for Emotion Recognition in Textual Dialogue
- Title(参考訳): 音声対話における感情認識のためのグローバルローカル認識付きデュアルストリーム再帰ネットワーク
- Authors: Jiang Li, Xiaoping Wang, Zhigang Zeng
- Abstract要約: Recurrent Neural Network(RNN)とMulti-head Attention Network(MAT)に基づくDualRAN(Dual-stream Recurrence-Attention Network)を提案する。
提案モデルでは,現在の手法の複雑なネットワーク構造を推定し,注意に基づく手法と反復型手法を組み合わせることに焦点を当てた。
広範に使用されている4つのベンチマークデータセットについて広範な実験を行い、提案モデルがすべてのベースラインを超越していることを明らかにした。
- 参考スコア(独自算出の注目度): 38.50094224881895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world dialogue systems, the ability to understand the user's emotions
and interact anthropomorphically is of great significance. Emotion Recognition
in Conversation (ERC) is one of the key ways to accomplish this goal and has
attracted growing attention. How to model the context in a conversation is a
central aspect and a major challenge of ERC tasks. Most existing approaches are
generally unable to capture both global and local contextual information
efficiently, and their network structures are too complex to design. For this
reason, in this work, we propose a straightforward Dual-stream
Recurrence-Attention Network (DualRAN) based on Recurrent Neural Network (RNN)
and Multi-head ATtention network (MAT). The proposed model eschews the complex
network structure of current methods and focuses on combining recurrence-based
methods with attention-based methods. DualRAN is a dual-stream structure mainly
consisting of local- and global-aware modules, modeling a conversation from
distinct perspectives. To achieve the local-aware module, we extend the
structure of RNN, thus enhancing the expressive capability of the network. In
addition, we develop two single-stream network variants for DualRAN, i.e.,
SingleRANv1 and SingleRANv2. We conduct extensive experiments on four widely
used benchmark datasets, and the results reveal that the proposed model
outshines all baselines. Ablation studies further demonstrate the effectiveness
of each component.
- Abstract(参考訳): 現実世界の対話システムでは,ユーザの感情を理解し,人為的に対話する能力が非常に重要である。
会話における感情認識(erc)は、この目標を達成するための重要な方法の1つであり、注目を集めている。
会話におけるコンテキストのモデル化は、ERCタスクにおける中心的な側面であり、大きな課題である。
既存のアプローチの多くは、グローバルとローカルの両方のコンテキスト情報を効率的に捉えることができず、ネットワーク構造は設計が複雑すぎる。
そこで本研究では,Recurrent Neural Network(RNN)とMulti-head Attention Network(MAT)をベースとしたDualRAN(DualRAN)を提案する。
提案モデルでは,現在の手法の複雑なネットワーク構造を推定し,注意に基づく手法と反復型手法の組み合わせに着目した。
DualRANは、主にローカルおよびグローバルなモジュールで構成され、異なる視点から会話をモデル化するデュアルストリーム構造である。
ローカル・アウェア・モジュールを実現するため、RNNの構造を拡張し、ネットワークの表現能力を高める。
さらに,DualRAN,SingleRANv1,SingleRANv2の2つのシングルストリームネットワークバリアントを開発した。
広範に使用されている4つのベンチマークデータセットについて広範な実験を行い、提案モデルがすべてのベースラインより優れていることを示した。
アブレーション研究はさらに各成分の有効性を示す。
関連論文リスト
- BCLNet: Bilateral Consensus Learning for Two-View Correspondence Pruning [26.400567961735234]
対応プルーニングは、2つの関連する画像間の信頼性の高い対応を確立することを目的としている。
既存のアプローチでは、ローカルとグローバルのコンテキストを扱うために、プログレッシブな戦略を採用することが多い。
本稿では,2視点対応型プルーニングタスクにおいて,双方向のコンセンサスを取得するための並列コンテキスト学習戦略を提案する。
論文 参考訳(メタデータ) (2024-01-07T11:38:15Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - PIN: A Novel Parallel Interactive Network for Spoken Language
Understanding [68.53121591998483]
既存の RNN ベースのアプローチでは、ID と SF のタスクは、それらの間の相関情報を利用するために、しばしば共同でモデル化される。
SNIPSとATISという2つのベンチマークデータセットによる実験は、我々のアプローチの有効性を実証している。
さらに,事前学習した言語モデルBERTが生成した発話の特徴埋め込みを用いて,提案手法はすべての比較手法の中で最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-09-28T15:59:31Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。