論文の概要: Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations
- arxiv url: http://arxiv.org/abs/2310.04481v1
- Date: Fri, 6 Oct 2023 10:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 18:20:45.148925
- Title: Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations
- Title(参考訳): コールセンター会話における音声連続感情認識のための音響・言語表現
- Authors: Manon Macary, Marie Tahon, Yannick Est\`eve, Daniel Luzzati
- Abstract要約: 本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。
実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。
驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
- 参考スコア(独自算出の注目度): 2.0653090022137697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of our research is to automatically retrieve the satisfaction and
the frustration in real-life call-center conversations. This study focuses an
industrial application in which the customer satisfaction is continuously
tracked down to improve customer services. To compensate the lack of large
annotated emotional databases, we explore the use of pre-trained speech
representations as a form of transfer learning towards AlloSat corpus.
Moreover, several studies have pointed out that emotion can be detected not
only in speech but also in facial trait, in biological response or in textual
information. In the context of telephone conversations, we can break down the
audio information into acoustic and linguistic by using the speech signal and
its transcription. Our experiments confirms the large gain in performance
obtained with the use of pre-trained features. Surprisingly, we found that the
linguistic content is clearly the major contributor for the prediction of
satisfaction and best generalizes to unseen data. Our experiments conclude to
the definitive advantage of using CamemBERT representations, however the
benefit of the fusion of acoustic and linguistic modalities is not as obvious.
With models learnt on individual annotations, we found that fusion approaches
are more robust to the subjectivity of the annotation task. This study also
tackles the problem of performances variability and intends to estimate this
variability from different views: weights initialization, confidence intervals
and annotation subjectivity. A deep analysis on the linguistic content
investigates interpretable factors able to explain the high contribution of the
linguistic modality for this task.
- Abstract(参考訳): 私たちの研究の目標は、実生活のコールセンター会話の満足度とフラストレーションを自動的に取り出すことです。
本研究は,顧客満足度を継続的に追跡し,顧客サービスを改善する産業アプリケーションに焦点を当てる。
注釈付き感情データベースの欠如を補うため,AlloSat corpus への変換学習の手段として,事前学習した音声表現の利用を検討する。
さらに、いくつかの研究は、感情は音声だけでなく、顔の特徴、生物学的反応、あるいはテキスト情報でも検出できると指摘している。
電話会話の文脈では、音声信号とその転写を用いて音声情報を音響的・言語的に分解することができる。
実験では,事前学習した特徴を用いて得られた性能の大幅な向上を確認した。
驚いたことに、言語内容は明らかに満足度予測の主要な貢献者であり、目に見えないデータに最も一般化されている。
実験の結果,CamemBERT表現の利点は明らかではないものの,音響的・言語的モダリティの融合によるメリットは明らかではない。
モデルが個々のアノテーションで学習することで、統合アプローチがアノテーションタスクの主観性に対してより堅牢であることが分かりました。
本研究は、性能変数の問題にも取り組み、重み付け初期化、信頼区間、アノテーション主観性といった異なる視点からこの変数を推定する。
言語内容の深い分析は、この課題に対する言語的モダリティの高貢献を説明することができる解釈可能な要因を調査する。
関連論文リスト
- Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Probing Speech Emotion Recognition Transformers for Linguistic Knowledge [7.81884995637243]
音声認識の微調整における言語情報の利用状況について検討する。
テキストの感情を変化させながら、韻律的に中性な発話を合成する。
変圧器モデルの妥当性予測は、否定だけでなく、肯定的および否定的な感情内容に対して非常に反応するが、増強剤や還元剤には反応しない。
論文 参考訳(メタデータ) (2022-04-01T12:47:45Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Embedded Emotions -- A Data Driven Approach to Learn Transferable
Feature Representations from Raw Speech Input for Emotion Recognition [1.4556324908347602]
本研究では,大規模テキストと音声コーパスから学習した知識を自動感情認識のタスクに適用する可能性について検討する。
その結果,学習した特徴表現を音声言語からの感情の分類に効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2020-09-30T09:18:31Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。