論文の概要: Unsupervised Personalization of an Emotion Recognition System: The
Unique Properties of the Externalization of Valence in Speech
- arxiv url: http://arxiv.org/abs/2201.07876v1
- Date: Wed, 19 Jan 2022 22:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 14:31:09.131898
- Title: Unsupervised Personalization of an Emotion Recognition System: The
Unique Properties of the Externalization of Valence in Speech
- Title(参考訳): 感情認識システムの教師なしパーソナライゼーション--音声における妥当性の外部化の特異性
- Authors: Kusha Sridhar and Carlos Busso
- Abstract要約: 音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。
本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。
本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
- 参考スコア(独自算出の注目度): 37.6839508524855
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The prediction of valence from speech is an important, but challenging
problem. The externalization of valence in speech has speaker-dependent cues,
which contribute to performances that are often significantly lower than the
prediction of other emotional attributes such as arousal and dominance. A
practical approach to improve valence prediction from speech is to adapt the
models to the target speakers in the test set. Adapting a speech emotion
recognition (SER) system to a particular speaker is a hard problem, especially
with deep neural networks (DNNs), since it requires optimizing millions of
parameters. This study proposes an unsupervised approach to address this
problem by searching for speakers in the train set with similar acoustic
patterns as the speaker in the test set. Speech samples from the selected
speakers are used to create the adaptation set. This approach leverages
transfer learning using pre-trained models, which are adapted with these speech
samples. We propose three alternative adaptation strategies: unique speaker,
oversampling and weighting approaches. These methods differ on the use of the
adaptation set in the personalization of the valence models. The results
demonstrate that a valence prediction model can be efficiently personalized
with these unsupervised approaches, leading to relative improvements as high as
13.52%.
- Abstract(参考訳): 発話の原子価の予測は重要であるが、難しい問題である。
音声におけるヴァレンスの外部化は話者に依存した手がかりを持ち、覚醒や支配といった他の感情的属性の予測よりもかなり低いパフォーマンスに寄与する。
音声からヴァレンス予測を改善するための実用的なアプローチは、テストセットのターゲット話者にモデルを適用することである。
音声感情認識(ser)システムを特定の話者に適応させることは、特にディープニューラルネットワーク(dnn)では、数百万のパラメータを最適化する必要があるため、難しい問題である。
本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。
選択した話者の音声サンプルを用いて適応セットを作成する。
この手法は,これらの音声サンプルに適応した事前学習モデルを用いた伝達学習を利用する。
そこで我々は,ユニークな話者,過剰サンプリング,重み付けアプローチという3つの適応戦略を提案する。
これらの方法は、ヴァレンスモデルのパーソナライズにおける適応セットの使用によって異なる。
その結果, 精度予測モデルは, 教師なしアプローチで効率的にパーソナライズでき, 相対的な改善が13.52%に達することがわかった。
関連論文リスト
- Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Factorised Speaker-environment Adaptive Training of Conformer Speech
Recognition Systems [31.813788489512394]
本稿では,Conformer ASRモデルに対する話者環境適応学習とテスト時間適応手法を提案する。
300時間WHAMノイズ劣化データの実験では、分解適応がベースラインを一貫して上回ることが示唆された。
さらに分析した結果,提案手法は未知の話者環境に迅速に適応できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-26T11:32:05Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Supervised Acoustic Embeddings And Their Transferability Across
Languages [2.28438857884398]
音声認識においては、話者変動や雑音など無関係な要因を排除しつつ、入力信号の音声内容のモデル化が不可欠である。
自己教師付き事前学習は、教師付き音声認識と教師なし音声認識の両方を改善する方法として提案されている。
論文 参考訳(メタデータ) (2023-01-03T09:37:24Z) - Zero-Shot Personalized Speech Enhancement through Speaker-Informed Model
Selection [25.05285328404576]
特定のテストタイムスピーカーに対する音声の最適化は、パフォーマンスを改善し、ランタイムの複雑さを低減する。
本稿では,各専門モジュールが個別の学習セット話者の分割から雑音発声を識別するアンサンブルモデルを提案する。
トレーニングセットのスピーカーを非オーバーラップ意味的に類似したグループにグルーピングすることは、非自明で不明確です。
論文 参考訳(メタデータ) (2021-05-08T00:15:57Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。