論文の概要: A study on cross-corpus speech emotion recognition and data augmentation
- arxiv url: http://arxiv.org/abs/2201.03511v1
- Date: Mon, 10 Jan 2022 18:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 16:45:00.625527
- Title: A study on cross-corpus speech emotion recognition and data augmentation
- Title(参考訳): クロスコーパス音声の感情認識とデータ拡張に関する研究
- Authors: Norbert Braunschweiler, Rama Doddipatla, Simon Keizer, Svetlana
Stoyanchev
- Abstract要約: 本稿では,データ補完とデータ拡張がSERモデルの性能に及ぼす影響について検討する。
観測では、予想通り、単一のコーパスで訓練されたモデルが、一致した条件下で最高の性能を発揮することが示されている。
混合コーパスで訓練されたモデルは、ミスマッチした文脈でより安定することができる。
- 参考スコア(独自算出の注目度): 15.575400480417843
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Models that can handle a wide range of speakers and acoustic conditions are
essential in speech emotion recognition (SER). Often, these models tend to show
mixed results when presented with speakers or acoustic conditions that were not
visible during training. This paper investigates the impact of cross-corpus
data complementation and data augmentation on the performance of SER models in
matched (test-set from same corpus) and mismatched (test-set from different
corpus) conditions. Investigations using six emotional speech corpora that
include single and multiple speakers as well as variations in emotion style
(acted, elicited, natural) and recording conditions are presented. Observations
show that, as expected, models trained on single corpora perform best in
matched conditions while performance decreases between 10-40% in mismatched
conditions, depending on corpus specific features. Models trained on mixed
corpora can be more stable in mismatched contexts, and the performance
reductions range from 1 to 8% when compared with single corpus models in
matched conditions. Data augmentation yields additional gains up to 4% and seem
to benefit mismatched conditions more than matched ones.
- Abstract(参考訳): 多様な話者と音響条件を処理できるモデルは、音声感情認識(ser)において必須である。
これらのモデルでは、訓練中に見えなかった話者や音響条件が混ざった結果を示すことが多い。
本稿では,データ補完とデータ拡張が一致した(同一コーパスからのテストセット)と不一致(異なるコーパスからのテストセット)におけるSERモデルの性能に及ぼす影響について検討する。
単一話者と複数話者を含む6つの感情音声コーパスと、感情スタイル(行動、誘発、自然)および記録条件のバリエーションを用いた調査を行った。
観察の結果,単一コーパスで訓練したモデルは一致した条件で最適に動作し,不一致条件では10~40%の性能が低下することがわかった。
混合コーパスでトレーニングされたモデルは、ミスマッチされたコンテキストにおいてより安定であり、マッチングされた条件での単一コーパスモデルと比較して、パフォーマンスの低下は1から8%である。
データ拡張は、最大4%の値上がりをもたらし、マッチした値よりも不一致の条件の恩恵を受けるように見える。
関連論文リスト
- Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Robustness of Speech Separation Models for Similar-pitch Speakers [14.941946672578863]
単一チャンネル音声分離は,マルチスピーカ環境における音声認識システムを強化する上で重要な課題である。
本稿では,話者間のピッチ差が最小限である場合における最先端ニューラルネットワークモデルのロバスト性について検討する。
論文 参考訳(メタデータ) (2024-07-22T15:55:08Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Diffusion-Based Speech Enhancement in Matched and Mismatched Conditions
Using a Heun-Based Sampler [16.13996677489119]
拡散モデルは、最近音声強調にうまく適用された新しい生成モデルである。
先行研究は、最先端の差別モデルと比較して、不一致条件下での優れた性能を実証している。
提案システムは,複数のデータベースをトレーニングに利用することにより,一致条件と一致条件の双方において,最先端の識別モデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-05T11:40:38Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - A Single Self-Supervised Model for Many Speech Modalities Enables
Zero-Shot Modality Transfer [31.028408352051684]
マルチモーダル音声と非モーダル音声の両方を活用できる自己教師型事前学習フレームワークであるu-HuBERTを提案する。
LRS3では1.2%/1.4%/27.2%の音声認識単語誤り率を示す。
論文 参考訳(メタデータ) (2022-07-14T16:21:33Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - ASR4REAL: An extended benchmark for speech models [19.348785785921446]
モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。
その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違が見られることが判明した。
テストされたすべてのモデルは、会話音声でのテストでは、強いパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2021-10-16T14:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。