論文の概要: PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction
- arxiv url: http://arxiv.org/abs/2110.00940v1
- Date: Sun, 3 Oct 2021 07:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 06:35:42.529187
- Title: PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction
- Title(参考訳): PL-EESR:知覚損失に基づくエンドツーエンドロバスト話者表現抽出
- Authors: Yi Ma and Kong Aik Lee and Ville Hautamaki and Haizhou Li
- Abstract要約: 音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
- 参考スコア(独自算出の注目度): 90.55375210094995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech enhancement aims to improve the perceptual quality of the speech
signal by suppression of the background noise. However, excessive suppression
may lead to speech distortion and speaker information loss, which degrades the
performance of speaker embedding extraction. To alleviate this problem, we
propose an end-to-end deep learning framework, dubbed PL-EESR, for robust
speaker representation extraction. This framework is optimized based on the
feedback of the speaker identification task and the high-level perceptual
deviation between the raw speech signal and its noisy version. We conducted
speaker verification tasks in both noisy and clean environment respectively to
evaluate our system. Compared to the baseline, our method shows better
performance in both clean and noisy environments, which means our method can
not only enhance the speaker relative information but also avoid adding
distortions.
- Abstract(参考訳): 音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
しかし、過剰な抑制は音声の歪みと話者情報損失を引き起こし、話者埋め込み抽出の性能を低下させる。
そこで本稿では,この問題を解決するために,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークpl-eesrを提案する。
この枠組みは、話者識別タスクのフィードバックと、生音声信号とその雑音バージョン間の高レベルの知覚偏差に基づいて最適化される。
騒音環境とクリーン環境の両方で話者検証を行い,システムの評価を行った。
本手法は, ベースラインと比較して, クリーン環境とノイズ環境の両方において良好な性能を示すため, 話者相対情報の向上だけでなく, 歪みの付加も回避できる。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。
その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-19T16:09:17Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Disentangled dimensionality reduction for noise-robust speaker
diarisation [30.383712356205084]
話者埋め込みはダイアリゼーションシステムの性能において重要な役割を果たす。
話者埋め込みは、しばしばノイズや残響などの急激な情報を捉え、性能に悪影響を及ぼす。
本稿では,話者埋め込みから急激な情報を解き放つことのできる新しい次元還元フレームワークを提案する。
また,背景雑音から話者コードが学習されるのを防止するために,音声・非音声指標も提案する。
論文 参考訳(メタデータ) (2021-10-07T12:19:09Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。