論文の概要: A Discourse Aware Sequence Learning Approach for Emotion Recognition in
Conversations
- arxiv url: http://arxiv.org/abs/2203.16799v2
- Date: Fri, 1 Apr 2022 04:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 11:07:49.045273
- Title: A Discourse Aware Sequence Learning Approach for Emotion Recognition in
Conversations
- Title(参考訳): 会話における感情認識のための談話認識シーケンス学習アプローチ
- Authors: Sreyan Ghosh, Harshvardhan Srivastava and S. Umesh
- Abstract要約: 本稿では,本モデルが最先端技術に競争力を持たせることを示し,文献における他のグラフベースの手法よりも優れた性能を示す。
コードはすべてGitHubで公開しています。
- 参考スコア(独自算出の注目度): 1.2031796234206138
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The expression of emotions is a crucial part of daily human communication.
Modeling the conversational and sequential context has seen much success and
plays a vital role in Emotion Recognition in Conversations (ERC). However,
existing approaches either model only one of the two or employ naive
late-fusion methodologies to obtain final utterance representations. This paper
proposes a novel idea to incorporate both these contexts and better model the
intrinsic structure within a conversation. More precisely, we propose a novel
architecture boosted by a modified LSTM cell, which we call DiscLSTM, that
better captures the interaction between conversational and sequential context.
DiscLSTM brings together the best of both worlds and provides a more intuitive
and efficient way to model the information flow between individual utterances
by better capturing long-distance conversational background through discourse
relations and sequential context through recurrence. We conduct experiments on
four benchmark datasets for ERC and show that our model achieves performance
competitive to state-of-the-art and at times performs better than other
graph-based approaches in literature, with a conversational graph that is both
sparse and avoids complicated edge relations like much of previous work. We
make all our codes publicly available on GitHub.
- Abstract(参考訳): 感情の表現は人間の日常コミュニケーションの重要な部分である。
会話とシーケンシャルな文脈のモデリングは成功し、会話における感情認識(ERC)において重要な役割を果たす。
しかし、既存のアプローチは2つのうちの1つしかモデル化せず、最終的な発話表現を得るために単純なレイトフュージョン手法を用いている。
本稿では,これらの文脈を取り入れ,会話内の内在的構造をより良くモデル化する新しいアイデアを提案する。
より正確には、DCDLSTMと呼ばれる改良LSTMセルによって強化された新しいアーキテクチャを提案し、会話コンテキストとシーケンシャルコンテキストの相互作用をよりよくキャプチャする。
disclstmは、両方の世界のベストをまとめ、会話関係を通じて長距離会話の背景をよりよく捉え、繰り返しを通じてシーケンシャルなコンテキストを捉えることにより、個々の発話間の情報フローをより直感的で効率的な方法でモデル化する。
ERCのための4つのベンチマークデータセットの実験を行い、我々のモデルが最先端と競合する性能を達成し、時には他の文献のグラフベースのアプローチよりも優れた性能を発揮することを示す。
すべてのコードをgithubで公開しています。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは28の言語で感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Akan Cinematic Emotions (ACE): A Multimodal Multi-party Dataset for Emotion Recognition in Movie Dialogues [4.894647740789939]
アカン会話感情データセット(Akan Conversation Emotion dataset)は、アフリカ語における最初のマルチモーダル感情対話データセットである。
385の感情ラベル付き対話と6,162の発話が音声、視覚、テキストのモダリティにわたって含まれている。
このデータセットに韻律ラベルがあることは、最初の韻律的に注釈付けされたアフリカの言語データセットにもなった。
論文 参考訳(メタデータ) (2025-02-16T03:24:33Z) - Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Evaluating the Capabilities of Large Language Models for Multi-label Emotion Understanding [20.581470997286146]
EthioEmoは、4つのエチオピア語に対するマルチラベル感情分類データセットである。
SemEval 2018 Task 1から追加の英語マルチラベル感情データセットで広範な実験を行う。
その結果,高精度なマルチラベル感情分類は,ハイソース言語においても依然として不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-12-17T07:42:39Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
視覚エンコーダとマルチモーダル大言語モデル(MLLM)の整合性に着目した既存手法
そこで本研究では,テキストガイダンスを用いて視覚的トークンアライメントを言語レベルで促進する新しい手法であるParrotを紹介する。
本手法は,多言語MMBenchおよびMMMB上での最先端性能を示すだけでなく,多モーダルタスクにも優れる。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - Challenges and Considerations with Code-Mixed NLP for Multilingual
Societies [1.6675267471157407]
本稿では,NLP研究の現状,限界,予測可能な落とし穴について論じる。
また,社会福祉のための多言語NLPアプリケーションにおける現在の研究を著しく進めることができる未来的データセット,モデル,ツールも提案する。
論文 参考訳(メタデータ) (2021-06-15T00:53:55Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。