論文の概要: EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa
- arxiv url: http://arxiv.org/abs/2108.12009v1
- Date: Thu, 26 Aug 2021 19:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 22:19:54.850371
- Title: EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa
- Title(参考訳): EmoBERTa:RoBERTaとの会話における話者認識感情認識
- Authors: Taewoon Kim and Piek Vossen
- Abstract要約: EmoBERTa は ERC (emotion recognition in conversation) タスクを解決するための単純かつ表現力のあるスキームである。
現在の話者の感情を予測するために、話者内および話者間状態と文脈を学習する。
実験の結果,2つの人気のあるERCデータセット上で,新たな最先端技術が実現された。
- 参考スコア(独自算出の注目度): 4.880614328768249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with
RoBERTa, a simple yet expressive scheme of solving the ERC (emotion recognition
in conversation) task. By simply prepending speaker names to utterances and
inserting separation tokens between the utterances in a dialogue, EmoBERTa can
learn intra- and inter- speaker states and context to predict the emotion of a
current speaker, in an end-to-end manner. Our experiments show that we reach a
new state of the art on the two popular ERC datasets using a basic and
straight-forward approach. We've open sourced our code and models at
https://github.com/tae898/erc.
- Abstract(参考訳): 我々は,erc(emotion recognition in conversation)タスクを解決する単純かつ表現力のあるスキームであるrobertaとの会話における話者認識について紹介する。
エモベルタは、単に話者名を発話に準備し、対話中の発話の間に分離トークンを挿入することで、話者内および話者間の状態と文脈を学習し、現在の話者の感情をエンドツーエンドで予測することができる。
実験の結果,2つの一般的なERCデータセット上で,基本的かつ直線的なアプローチを用いて新たな技術状況に到達できることが判明した。
コードとモデルをhttps://github.com/tae898/ercでオープンソース化しました。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - IITK at SemEval-2024 Task 10: Who is the speaker? Improving Emotion Recognition and Flip Reasoning in Conversations via Speaker Embeddings [4.679320772294786]
Emotion Flip Reasoning タスクのためのトランスフォーマーに基づく話者中心モデルを提案する。
サブタスク3では,タスクベースラインに対する5.9(F1スコア)の改善が提案されている。
論文 参考訳(メタデータ) (2024-04-06T06:47:44Z) - CKERC : Joint Large Language Models with Commonsense Knowledge for
Emotion Recognition in Conversation [0.0]
会話における感情認識(英: Emotion Recognition in conversation、ERC)とは、会話の文脈における発話の感情を予測するタスクである。
会話における感情認識のための共通知識フレームワークであるCKERCを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:37:11Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - STUDIES: Corpus of Japanese Empathetic Dialogue Speech Towards Friendly
Voice Agent [41.46571444928867]
本稿では,親しみやすい音声エージェントを開発するための音声コーパスSTUDIESを提案する。
我々はSTUDIESコーパスを設計し、対話者の感情に共感を持って話す話者を含むようにした。
その結果,対話型感情ラベルと会話型文脈埋め込みを用いることで,エージェントの感情ラベルを用いて合成した自然度と同程度の音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-28T13:49:59Z) - Beyond Isolated Utterances: Conversational Emotion Recognition [33.52961239281893]
音声の感情認識は、発話の記録から話者の感情状態を認識するタスクである。
本稿では,対話型感情認識(CER)をシーケンスラベリングタスクとして扱うことで,対話型感情認識(CER)にいくつかのアプローチを提案する。
CERのトランスフォーマーアーキテクチャについて検討し,ResNet-34およびBiLSTMアーキテクチャと比較した。
論文 参考訳(メタデータ) (2021-09-13T16:40:35Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Emotion Dynamics Modeling via BERT [7.3785751096660555]
対話型感情ダイナミクスのインターロケータ間およびインターロケータ間依存性をキャプチャするBERTベースの一連のモデルを開発する。
提案したモデルはそれぞれ,最先端のベースラインよりも約5%,10%改善できる。
論文 参考訳(メタデータ) (2021-04-15T05:58:48Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。