論文の概要: Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments
- arxiv url: http://arxiv.org/abs/2410.05423v1
- Date: Mon, 7 Oct 2024 18:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 18:47:31.619768
- Title: Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments
- Title(参考訳): 対人環境における音声認識の改善による話者同一性支援の活用
- Authors: Sagarika Alavilli, Annesya Banerjee, Gasser Elbanna, Annika Magaro,
- Abstract要約: 音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。
クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。
以上の結果から,音声認識と音声表現の統合により,対向条件下ではより堅牢なモデルが得られる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.2916558661202724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art speech recognition models are trained to map acoustic signals into sub-lexical units. While these models demonstrate superior performance, they remain vulnerable to out-of-distribution conditions such as background noise and speech augmentations. In this work, we hypothesize that incorporating speaker representations during speech recognition can enhance model robustness to noise. We developed a transformer-based model that jointly performs speech recognition and speaker identification. Our model utilizes speech embeddings from Whisper and speaker embeddings from ECAPA-TDNN, which are processed jointly to perform both tasks. We show that the joint model performs comparably to Whisper under clean conditions. Notably, the joint model outperforms Whisper in high-noise environments, such as with 8-speaker babble background noise. Furthermore, our joint model excels in handling highly augmented speech, including sine-wave and noise-vocoded speech. Overall, these results suggest that integrating voice representations with speech recognition can lead to more robust models under adversarial conditions.
- Abstract(参考訳): 現在の最先端音声認識モデルは、音響信号を語彙単位にマッピングするために訓練されている。
これらのモデルは優れた性能を示すが、背景雑音や音声の増大といったアウト・オブ・ディストリビューション条件に弱いままである。
本研究では,音声認識中に話者表現を組み込むことで,雑音に対するモデルロバスト性を高めることができるという仮説を立てる。
音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。
本モデルでは,Whisper の音声埋め込みと ECAPA-TDNN の話者埋め込みを利用して,両タスクを共同処理する。
クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。
特に、ジョイントモデルは8スピーカバブルバックグラウンドノイズなどの高雑音環境においてWhisperよりも優れています。
さらに,音波や雑音音声を含む高次音声の処理に優れた関節モデルを提案する。
これらの結果から,音声表現と音声認識を組み合わせることで,対向的条件下でより堅牢なモデルが得られる可能性が示唆された。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech
Enhancement [16.900731393703648]
自己教師付き学習モデルは、特定の音声タスクに非常に効果的であることが判明した。
本稿では,単一チャンネル音声強調におけるSSL表現の利用について検討する。
論文 参考訳(メタデータ) (2024-03-03T02:05:17Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - Pre-trained Model Representations and their Robustness against Noise for
Speech Emotion Analysis [6.382013662443799]
我々は、事前訓練されたモデルからのマルチモーダル融合表現を用いて、最先端の音声感情推定を生成する。
その結果,語彙表現は音響表現に比べて歪みに対して頑健であることが判明した。
論文 参考訳(メタデータ) (2023-03-03T18:22:32Z) - Fine-grained Noise Control for Multispeaker Speech Synthesis [3.449700218265025]
テキスト音声モデル(TTS)は、典型的には、内容、話者、韻律などの音声属性を非絡み合い表現に分解する。
近年の課題は, 音響条件を的確にモデル化することであり, 主要な音声要因を解消することである。
論文 参考訳(メタデータ) (2022-04-11T13:13:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Speaker Re-identification with Speaker Dependent Speech Enhancement [37.33388614967888]
本稿では,音声強調と話者認識を行う新しい手法を提案する。
提案手法は,実環境における話者認識評価を目的としたVoxceleb1データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-05-15T23:02:10Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。