論文の概要: Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention
- arxiv url: http://arxiv.org/abs/2002.05873v1
- Date: Fri, 14 Feb 2020 05:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 04:21:15.302792
- Title: Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention
- Title(参考訳): セルフアダプションとマルチヘッドセルフアテンションを用いた音声強調
- Authors: Yuma Koizumi, Kohei Yatabe, Marc Delcroix, Yoshiki Masuyama, Daiki
Takeuchi
- Abstract要約: 本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
- 参考スコア(独自算出の注目度): 70.82604384963679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates a self-adaptation method for speech enhancement using
auxiliary speaker-aware features; we extract a speaker representation used for
adaptation directly from the test utterance. Conventional studies of deep
neural network (DNN)--based speech enhancement mainly focus on building a
speaker independent model. Meanwhile, in speech applications including speech
recognition and synthesis, it is known that model adaptation to the target
speaker improves the accuracy. Our research question is whether a DNN for
speech enhancement can be adopted to unknown speakers without any auxiliary
guidance signal in test-phase. To achieve this, we adopt multi-task learning of
speech enhancement and speaker identification, and use the output of the final
hidden layer of speaker identification branch as an auxiliary feature. In
addition, we use multi-head self-attention for capturing long-term dependencies
in the speech and noise. Experimental results on a public dataset show that our
strategy achieves the state-of-the-art performance and also outperform
conventional methods in terms of subjective quality.
- Abstract(参考訳): 本稿では,補助話者認識機能を用いた音声強調のための自己適応手法について検討し,テスト発話から直接適応する話者表現を抽出する。
ディープニューラルネットワーク(DNN)に基づく音声強調の従来の研究は、主に話者独立モデルの構築に焦点を当てている。
一方、音声認識や合成を含む音声応用においては、対象話者へのモデル適応が精度を向上させることが知られている。
本研究は,音声強調のためのDNNを,テストフェーズにおいて補助的な誘導信号なしで未知話者に適用できるかどうかである。
これを実現するために,音声強調と話者識別のマルチタスク学習を採用し,話者識別分岐の最終隠れ層の出力を補助的特徴として利用する。
さらに,音声と雑音の長期依存性を捉えるために,マルチヘッド自己注意を用いる。
公開データセットによる実験結果から,我々の戦略は最先端の性能を達成し,従来の手法よりも主観的品質を向上することが示された。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。