論文の概要: Detecting Emotion Carriers by Combining Acoustic and Lexical
Representations
- arxiv url: http://arxiv.org/abs/2112.06603v1
- Date: Mon, 13 Dec 2021 12:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 15:08:21.079312
- Title: Detecting Emotion Carriers by Combining Acoustic and Lexical
Representations
- Title(参考訳): 音響表現と語彙表現を組み合わせた感情キャリアの検出
- Authors: Sebastian P. Bayerl, Aniruddha Tammewar, Korbinian Riedhammer and
Giuseppe Riccardi
- Abstract要約: ナレーターの感情状態を最もよく説明するセグメントとして定義される感情キャリア(EC)に注目した。
ECは、自然言語理解を改善するために、ユーザ状態のよりリッチな表現を提供することができます。
音声話中の心電図の検出には,単語ベースの音響およびテキストの埋め込みに加えて,早期・後期の融合技術を利用する。
- 参考スコア(独自算出の注目度): 7.225325393598648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personal narratives (PN) - spoken or written - are recollections of facts,
people, events, and thoughts from one's own experience. Emotion recognition and
sentiment analysis tasks are usually defined at the utterance or document
level. However, in this work, we focus on Emotion Carriers (EC) defined as the
segments (speech or text) that best explain the emotional state of the narrator
("loss of father", "made me choose"). Once extracted, such EC can provide a
richer representation of the user state to improve natural language
understanding and dialogue modeling. In previous work, it has been shown that
EC can be identified using lexical features. However, spoken narratives should
provide a richer description of the context and the users' emotional state. In
this paper, we leverage word-based acoustic and textual embeddings as well as
early and late fusion techniques for the detection of ECs in spoken narratives.
For the acoustic word-level representations, we use Residual Neural Networks
(ResNet) pretrained on separate speech emotion corpora and fine-tuned to detect
EC. Experiments with different fusion and system combination strategies show
that late fusion leads to significant improvements for this task.
- Abstract(参考訳): 個人的物語(Personal narratives、PN)は、自分の経験から事実、人々、出来事、思考を回想したものである。
感情認識と感情分析のタスクは通常、発話または文書レベルで定義される。
しかし、本研究では、語り手の感情状態を説明するセグメント(音声またはテキスト)として定義された感情伝達体(ec)に焦点を当てている("loss of father", "made me choose")。
ひとたび抽出されると、そのようなecは自然言語理解と対話モデリングを改善するためにユーザー状態をよりリッチに表現することができる。
これまでの研究では、ECは語彙的特徴を用いて識別できることが示されている。
しかし、話し言葉は、文脈とユーザの感情状態のより豊かな説明を提供するべきである。
本稿では,音声中のECを検出するために,単語ベースの音響およびテキストの埋め込み,および早期・後期融合技術を活用する。
単語レベルの音響表現には、個別の音声感情コーパスに基づいて事前訓練されたResidual Neural Networks(ResNet)を用いてECを検出する。
異なる融合とシステムの組み合わせ戦略による実験は、後期融合がこのタスクに大きな改善をもたらすことを示している。
関連論文リスト
- Revealing Emotional Clusters in Speaker Embeddings: A Contrastive
Learning Strategy for Speech Emotion Recognition [27.098672790099304]
感情情報は話者埋め込みに間接的に埋め込まれていると推定され、その未利用に繋がった。
本研究は,話者内クラスタの形で,感情と最先端の話者埋め込みの直接的かつ有用な関係を明らかにする。
音声の感情認識のための感情非ラベルデータに適用する新しいコントラスト事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T20:31:53Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - Mimicking the Thinking Process for Emotion Recognition in Conversation
with Prompts and Paraphrasing [26.043447749659478]
複雑な因子をモデル化する際の思考過程を模倣する新しい枠組みを提案する。
我々はまず,会話のコンテキストを履歴指向のプロンプトで理解し,対象発話の前者からの情報を選択的に収集する。
次に、話者の背景を経験指向のプロンプトでモデル化し、すべての会話から類似した発話を検索する。
論文 参考訳(メタデータ) (2023-06-11T06:36:19Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Emotion Carrier Recognition from Personal Narratives [74.24768079275222]
パーソナル・ナラティブズ(Personal Narratives、PN)は、自分の経験から事実、出来事、思考を回想するものである。
感情キャリア認識(ECR)のための新しい課題を提案する。
論文 参考訳(メタデータ) (2020-08-17T17:16:08Z) - Annotation of Emotion Carriers in Personal Narratives [69.07034604580214]
我々は、個人的物語(PN) - 話されたり書かれたり - 事実、出来事、思考の記憶 - を理解する問題に興味を持っている。
PNでは、感情担体(英: emotion carriers)は、ユーザの感情状態を最もよく説明する音声またはテキストセグメントである。
本研究は,音声対話における感情担持者を特定するためのアノテーションモデルを提案し,評価する。
論文 参考訳(メタデータ) (2020-02-27T15:42:39Z) - A Deep Neural Framework for Contextual Affect Detection [51.378225388679425]
感情を持たない短い単純なテキストは、その文脈と共に読むときに強い感情を表現することができる。
文中の単語の相互依存を学習する文脈影響検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-28T05:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。