論文の概要: Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise Conditions
- arxiv url: http://arxiv.org/abs/2409.19585v1
- Date: Sun, 29 Sep 2024 07:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:46.667816
- Title: Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise Conditions
- Title(参考訳): ターゲット話者抽出を用いたロバスト音声認識のための2段階フレームワーク
- Authors: Jinyi Mi, Xiaohan Shi, Ding Ma, Jiajun He, Takuya Fujimura, Tomoki Toda,
- Abstract要約: 本稿では、ターゲット話者抽出法(TSE)と音声感情認識法(SER)を用いて、この問題に対する新たな2段階フレームワークを提案する。
まず,TSEモデルを用いて混合話者の音声を抽出し,第2段階で抽出した音声をSER訓練に用いる。
提案システムでは,TSE法を使わずに,ベースラインに比べて14.33%の非重み付き精度(UA)向上を実現している。
- 参考スコア(独自算出の注目度): 25.490988931354185
- License:
- Abstract: Developing a robust speech emotion recognition (SER) system in noisy conditions faces challenges posed by different noise properties. Most previous studies have not considered the impact of human speech noise, thus limiting the application scope of SER. In this paper, we propose a novel two-stage framework for the problem by cascading target speaker extraction (TSE) method and SER. We first train a TSE model to extract the speech of target speaker from a mixture. Then, in the second stage, we utilize the extracted speech for SER training. Additionally, we explore a joint training of TSE and SER models in the second stage. Our developed system achieves a 14.33% improvement in unweighted accuracy (UA) compared to a baseline without using TSE method, demonstrating the effectiveness of our framework in mitigating the impact of human speech noise. Moreover, we conduct experiments considering speaker gender, showing that our framework performs particularly well in different-gender mixture.
- Abstract(参考訳): 雑音条件下での頑健な音声感情認識(SER)システムの開発は、異なる雑音特性によって生じる課題に直面している。
従来の研究は人間の音声雑音の影響を考慮していないため、SERの適用範囲は制限されている。
本稿では,ターゲット話者抽出法(TSE)とSERを用いて,この問題に対する新たな2段階の枠組みを提案する。
まず、TSEモデルを訓練し、混合からターゲット話者の音声を抽出する。
そして第2段階で,抽出した音声をSER訓練に用いる。
さらに,第2段階におけるTSEモデルとSERモデルの共同トレーニングについて検討する。
提案手法は,TSE法を使わずにベースラインと比較して14.33%の精度向上を実現し,人間の音声雑音の影響を緩和する枠組みの有効性を示した。
さらに, 話者の性別を考慮した実験を行い, 異なるジェンダーの混合において, フレームワークが特に良好に機能することを示した。
関連論文リスト
- Textless Acoustic Model with Self-Supervised Distillation for Noise-Robust Expressive Speech-to-Speech Translation [29.789809751108304]
ノイズロスト表現型音声音声合成(S2ST)のための自己教師型蒸留方式を用いたテキストレス音響モデルを提案する。
提案手法は雑音非依存の表現を捉えるため,雑音環境においても有資格音声を生成することができる。
論文 参考訳(メタデータ) (2024-06-04T19:22:13Z) - Robust Active Speaker Detection in Noisy Environments [29.785749048315616]
雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T20:52:30Z) - Diffusion Conditional Expectation Model for Efficient and Robust Target
Speech Extraction [73.43534824551236]
ターゲット音声抽出(TSE)のための条件拡散予測モデル(DCEM)という効率的な生成手法を提案する。
ノイズとクリーンな条件の両方で、マルチとシングルスピーカーのシナリオを処理できる。
本手法は,従来の手法よりも侵入的指標と非侵入的指標の両方で優れていた。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [61.463533069294414]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - A Training and Inference Strategy Using Noisy and Enhanced Speech as
Target for Speech Enhancement without Clean Speech [24.036987059698415]
本稿では,拡張音声をターゲットとして用いるトレーニングと推論戦略を提案する。
NyTTの有効性の鍵は、ドメイン内ノイズと外ノイズの均一性にあるため、様々な学生モデルをリミックスして訓練する。
実験の結果,提案手法はいくつかのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-27T12:26:24Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。