論文の概要: Multi-Task Learning with Auxiliary Speaker Identification for
Conversational Emotion Recognition
- arxiv url: http://arxiv.org/abs/2003.01478v2
- Date: Thu, 5 Mar 2020 01:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 23:08:49.379928
- Title: Multi-Task Learning with Auxiliary Speaker Identification for
Conversational Emotion Recognition
- Title(参考訳): 会話型感情認識のための補助話者識別によるマルチタスク学習
- Authors: Jingye Li, Meishan Zhang, Donghong Ji, Yijiang Liu
- Abstract要約: 話者識別(SI)を補助課題として活用し,会話における発話表現を強化する。
この方法により、追加のSIコーパスから話者認識型文脈表現を学習できる。
2つのベンチマークデータセットの実験では、提案されたアーキテクチャがCERに非常に有効であることが示されている。
- 参考スコア(独自算出の注目度): 32.439818455554885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational emotion recognition (CER) has attracted increasing interests
in the natural language processing (NLP) community. Different from the vanilla
emotion recognition, effective speaker-sensitive utterance representation is
one major challenge for CER. In this paper, we exploit speaker identification
(SI) as an auxiliary task to enhance the utterance representation in
conversations. By this method, we can learn better speaker-aware contextual
representations from the additional SI corpus. Experiments on two benchmark
datasets demonstrate that the proposed architecture is highly effective for
CER, obtaining new state-of-the-art results on two datasets.
- Abstract(参考訳): 会話感情認識(CER)は、自然言語処理(NLP)コミュニティへの関心が高まっている。
バニラ感情認識とは異なり、効果的な話者感性発話表現はcerにとって大きな課題である。
本稿では,会話における発話表現を高めるために,話者識別(SI)を補助課題として活用する。
この方法では、追加のsiコーパスからより優れた話者認識コンテキスト表現を学習できる。
2つのベンチマークデータセットの実験では、提案されたアーキテクチャがCERに極めて有効であることが示され、2つのデータセットで新たな最先端結果が得られる。
関連論文リスト
- CKERC : Joint Large Language Models with Commonsense Knowledge for
Emotion Recognition in Conversation [0.0]
会話における感情認識(英: Emotion Recognition in conversation、ERC)とは、会話の文脈における発話の感情を予測するタスクである。
会話における感情認識のための共通知識フレームワークであるCKERCを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:37:11Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Beyond Isolated Utterances: Conversational Emotion Recognition [33.52961239281893]
音声の感情認識は、発話の記録から話者の感情状態を認識するタスクである。
本稿では,対話型感情認識(CER)をシーケンスラベリングタスクとして扱うことで,対話型感情認識(CER)にいくつかのアプローチを提案する。
CERのトランスフォーマーアーキテクチャについて検討し,ResNet-34およびBiLSTMアーキテクチャと比較した。
論文 参考訳(メタデータ) (2021-09-13T16:40:35Z) - Speaker Attentive Speech Emotion Recognition [11.92436948211501]
音声感情認識(SER)タスクは、DNN(Deep Neural Networks)の出現により、ここ数年で大幅に改善されました。
スピーカーのアイデンティティについて感情認識ネットワークを教えるというアイデアに基づく新しい作品を紹介します。
論文 参考訳(メタデータ) (2021-04-15T07:59:37Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Speaker-Utterance Dual Attention for Speaker and Utterance Verification [77.2346078109261]
我々は,統合ニューラルネットワークにおける話者発話二重注意(SUDA)の考え方を実装した。
提案するSUDAは,話者と発話情報ストリーム間のインタラクションを学習するためのアテンションマスク機構を備えている。
論文 参考訳(メタデータ) (2020-08-20T11:37:57Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Deep Representation Learning in Speech Processing: Challenges, Recent
Advances, and Future Trends [10.176394550114411]
本研究の主な貢献は,音声表現学習の様々な技術について,最新の包括的調査を行うことである。
近年, ASR, SR, SER の音声評価が行われているが,これらは音声からの表現学習に重点を置いていない。
論文 参考訳(メタデータ) (2020-01-02T10:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。