論文の概要: Speaker Anonymization with Phonetic Intermediate Representations
- arxiv url: http://arxiv.org/abs/2207.04834v1
- Date: Mon, 11 Jul 2022 13:02:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 16:20:09.686348
- Title: Speaker Anonymization with Phonetic Intermediate Representations
- Title(参考訳): 音声中間表現を用いた話者匿名化
- Authors: Sarina Meyer, Florian Lux, Pavel Denisov, Julia Koch, Pascal Tilli,
Ngoc Thang Vu
- Abstract要約: 本稿では,話者の匿名化パイプラインを提案する。
中間表現として電話を用いると、入力から話者識別情報のほぼ完全な除去が保証される。
- 参考スコア(独自算出の注目度): 22.84840887071428
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we propose a speaker anonymization pipeline that leverages high
quality automatic speech recognition and synthesis systems to generate speech
conditioned on phonetic transcriptions and anonymized speaker embeddings. Using
phones as the intermediate representation ensures near complete elimination of
speaker identity information from the input while preserving the original
phonetic content as much as possible. Our experimental results on LibriSpeech
and VCTK corpora reveal two key findings: 1) although automatic speech
recognition produces imperfect transcriptions, our neural speech synthesis
system can handle such errors, making our system feasible and robust, and 2)
combining speaker embeddings from different resources is beneficial and their
appropriate normalization is crucial. Overall, our final best system
outperforms significantly the baselines provided in the Voice Privacy Challenge
2020 in terms of privacy robustness against a lazy-informed attacker while
maintaining high intelligibility and naturalness of the anonymized speech.
- Abstract(参考訳): 本研究では,高品質な自動音声認識と合成システムを用いて,音声の書き起こしと匿名化話者埋め込みに基づく音声生成を行う話者匿名化パイプラインを提案する。
中間表現として電話を用いると、入力から話者識別情報のほぼ完全に除去され、元の音声コンテンツは可能な限り保存される。
LibriSpeech および VCTK corpora の実験結果から,2つの重要な所見が明らかになった。
1) 自動音声認識は不完全な書き起こしを生成するが, ニューラル音声合成システムはそのような誤りを処理できるため, システムの実現性と頑健性が期待できる。
2) 異なる資源からの話者埋め込みを組み合わせることは有用であり, 適切な正規化が重要である。
全体として、私たちの最後のベストシステムは、匿名化されたスピーチの知性と自然性を維持しながら、怠け者に対するプライバシーの堅牢性の観点から、voice privacy challenge 2020で提供されるベースラインを大幅に上回っています。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Improving Self-Supervised Speech Representations by Disentangling
Speakers [56.486084431528695]
音声における自己教師付き学習は、大規模無意味な音声コーパス上で、音声表現ネットワークを訓練することを含む。
話者を遠ざけることは非常に困難であり、スピーカー情報を削除すればコンテンツも失われる可能性がある。
本稿では,コンテンツが著しく失われることなく,話者のゆがみを解消できる新しいSSL手法を提案する。
論文 参考訳(メタデータ) (2022-04-20T04:56:14Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Differentially Private Speaker Anonymization [44.90119821614047]
実世界の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。
話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。
言語的属性と韻律的属性は依然として話者情報を含んでいる。
論文 参考訳(メタデータ) (2022-02-23T23:20:30Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。