論文の概要: Analysis of impact of emotions on target speech extraction and speech
separation
- arxiv url: http://arxiv.org/abs/2208.07091v1
- Date: Mon, 15 Aug 2022 09:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 15:07:35.187213
- Title: Analysis of impact of emotions on target speech extraction and speech
separation
- Title(参考訳): ターゲット音声抽出と音声分離における感情の影響の分析
- Authors: J\'an \v{S}vec, Kate\v{r}ina \v{Z}mol\'ikov\'a, Martin Kocour, Marc
Delcroix, Tsubasa Ochiai, Ladislav Mo\v{s}ner, Jan \v{C}ernock\'y
- Abstract要約: ブラインド音声分離(BSS)とターゲット音声抽出(TSE)における感情の影響について検討する。
我々は,BSSが感情に対して比較的堅牢であるのに対し,ターゲット話者の発話を識別・抽出する必要があるTSEは感情に対してはるかに敏感であることを示した。
- 参考スコア(独自算出の注目度): 30.06415464303977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the performance of blind speech separation (BSS) and target speech
extraction (TSE) has greatly progressed. Most works, however, focus on
relatively well-controlled conditions using, e.g., read speech. The performance
may degrade in more realistic situations. One of the factors causing such
degradation may be intrinsic speaker variability, such as emotions, occurring
commonly in realistic speech. In this paper, we investigate the influence of
emotions on TSE and BSS. We create a new test dataset of emotional mixtures for
the evaluation of TSE and BSS. This dataset combines LibriSpeech and Ryerson
Audio-Visual Database of Emotional Speech and Song (RAVDESS). Through
controlled experiments, we can analyze the impact of different emotions on the
performance of BSS and TSE. We observe that BSS is relatively robust to
emotions, while TSE, which requires identifying and extracting the speech of a
target speaker, is much more sensitive to emotions. On comparative speaker
verification experiments we show that identifying the target speaker may be
particularly challenging when dealing with emotional speech. Using our
findings, we outline potential future directions that could improve the
robustness of BSS and TSE systems toward emotional speech.
- Abstract(参考訳): 近年,ブラインド音声分離(BSS)とターゲット音声抽出(TSE)が著しく進歩している。
しかし、ほとんどの研究は、例えば読み上げ音声を用いた比較的よく制御された条件に焦点を当てている。
パフォーマンスはより現実的な状況で劣化する可能性がある。
このような劣化を引き起こす要因の1つは、感情のような内在的な話者変動であり、現実の言葉で一般的に起こる。
本稿では,感情がTSEとBSSに与える影響について検討する。
TSEとBSSの評価のための感情混合の新たなテストデータセットを作成する。
このデータセットは、LibriSpeechとRyerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)を組み合わせる。
制御実験により,BSSとTSEの性能に及ぼす異なる感情の影響を解析できる。
我々は,BSSが感情に対して比較的堅牢であるのに対し,ターゲット話者の発話を識別・抽出する必要があるTSEは感情に対してはるかに敏感であることを示した。
比較話者検証実験において,対象話者の識別が感情的音声処理において特に困難であることを示す。
本研究は,BSSおよびTSEシステムの感情音声に対する堅牢性を向上させる可能性について概説する。
関連論文リスト
- Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。
本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。
TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - Learning Emotional Representations from Imbalanced Speech Data for
Speech Emotion Recognition and Emotional Text-to-Speech [1.4986031916712106]
音声感情表現は、音声感情認識(SER)および感情テキスト音声(TTS)タスクにおいて重要な役割を果たす。
モデルは大多数の中立層に過度に適合し、堅牢で効果的な感情表現を生成できない。
我々は、モデルのトレーニングに拡張アプローチを使用し、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにする。
論文 参考訳(メタデータ) (2023-06-09T07:04:56Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Emotional Prosody Control for Speech Generation [7.66200737962746]
本研究では,ユーザが連続的かつ有意義な感情空間から生成した音声の感情を選択することができるテキスト・トゥ・スピーチ(TTS)システムを提案する。
提案システムでは,任意の話者のスタイルでテキストから音声を生成することができる。
論文 参考訳(メタデータ) (2021-11-07T08:52:04Z) - E-ffective: A Visual Analytic System for Exploring the Emotion and
Effectiveness of Inspirational Speeches [57.279044079196105]
E-ffective(エフェクティブ)は、音声の専門家や初心者が、音声要因の役割と効果的な音声への貢献の両方を分析することのできる視覚分析システムである。
E-spiral(音声の感情の変化を視覚的にコンパクトに表現する)とE-script(音声コンテンツを主要な音声配信情報に結びつける)の2つの新しい可視化技術がある。
論文 参考訳(メタデータ) (2021-10-28T06:14:27Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。