論文の概要: Differentially Private Speaker Anonymization
- arxiv url: http://arxiv.org/abs/2202.11823v1
- Date: Wed, 23 Feb 2022 23:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 07:06:16.473850
- Title: Differentially Private Speaker Anonymization
- Title(参考訳): 個人話者の匿名化
- Authors: Ali Shahin Shamsabadi, Brij Mohan Lal Srivastava, Aur\'elien Bellet,
Nathalie Vauquier, Emmanuel Vincent, Mohamed Maouche, Marc Tommasi, Nicolas
Papernot
- Abstract要約: 実世界の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。
話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。
言語的属性と韻律的属性は依然として話者情報を含んでいる。
- 参考スコア(独自算出の注目度): 44.90119821614047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharing real-world speech utterances is key to the training and deployment of
voice-based services. However, it also raises privacy risks as speech contains
a wealth of personal data. Speaker anonymization aims to remove speaker
information from a speech utterance while leaving its linguistic and prosodic
attributes intact. State-of-the-art techniques operate by disentangling the
speaker information (represented via a speaker embedding) from these attributes
and re-synthesizing speech based on the speaker embedding of another speaker.
Prior research in the privacy community has shown that anonymization often
provides brittle privacy protection, even less so any provable guarantee. In
this work, we show that disentanglement is indeed not perfect: linguistic and
prosodic attributes still contain speaker information. We remove speaker
information from these attributes by introducing differentially private feature
extractors based on an autoencoder and an automatic speech recognizer,
respectively, trained using noise layers. We plug these extractors in the
state-of-the-art anonymization pipeline and generate, for the first time,
differentially private utterances with a provable upper bound on the speaker
information they contain. We evaluate empirically the privacy and utility
resulting from our differentially private speaker anonymization approach on the
LibriSpeech data set. Experimental results show that the generated utterances
retain very high utility for automatic speech recognition training and
inference, while being much better protected against strong adversaries who
leverage the full knowledge of the anonymization process to try to infer the
speaker identity.
- Abstract(参考訳): 実際の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。
しかし、スピーチには個人情報が豊富にあるため、プライバシーのリスクも高まる。
話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。
最先端技術は、これらの属性から話者情報(話者埋め込みを介して表現される)を分離し、他の話者の埋め込みに基づく音声を再合成することによって機能する。
プライバシコミュニティの以前の調査では、匿名化はしばしば脆弱なプライバシ保護を提供するが、証明可能な保証は少なかった。
言語的・韻律的属性は依然として話者情報を含んでいる。
ノイズ層を用いて訓練したオートエンコーダと自動音声認識器に基づいて,各特徴抽出器を差分的に導入することにより,これらの属性から話者情報を除去する。
我々は,これらの抽出器を最先端の匿名化パイプラインに挿入し,その話者情報に証明可能な上限を持つ差分プライベート発話を初めて生成する。
我々は,LibriSpeechデータセットに対する個人話者匿名化手法によるプライバシーと利便性を実証的に評価した。
実験結果から, 話者識別を推測するために, 匿名化プロセスの知識を最大限に活用する強力な敵に対して, 音声認識訓練や推論において, 発話が極めて有効であることが確認された。
関連論文リスト
- A Benchmark for Multi-speaker Anonymization [9.990701310620368]
本稿では,実世界のアプリケーションを対象としたマルチ話者匿名化ベンチマークを提案する。
カスケードシステムは、話者ダイアリゼーションを使用して、各話者の音声を集約し、話者匿名化を行い、話者のプライバシーを隠蔽し、音声コンテンツを保存する。
非オーバーラップシミュレーションと実世界のデータセットによる実験は、マルチスピーカー匿名化システムの有効性を実証している。
論文 参考訳(メタデータ) (2024-07-08T04:48:43Z) - Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding [46.25816642820348]
我々は、人間の知覚を維持しながら、音声認識に対して音声属性を変更することに重点を置いている。
話者ゆがみ機構を組み込んだ音声生成フレームワークを用いて匿名化音声を生成する。
LibriSpeechデータセットで行った実験では、話者の属性は、その人の知覚が処理された発話の60.71%で保存されていることが判明した。
論文 参考訳(メタデータ) (2024-06-12T13:33:24Z) - Evaluation of Speaker Anonymization on Emotional Speech [9.223908421919733]
音声データには、話者のアイデンティティや感情状態など、さまざまな個人情報が含まれている。
最近の研究は、音声のプライバシーを守るという話題に対処している。
VoicePrivacy 2020 Challenge(VPC)は、話者の匿名化に関するものだ。
論文 参考訳(メタデータ) (2023-04-15T20:50:29Z) - Anonymizing Speech with Generative Adversarial Networks to Preserve
Speaker Privacy [22.84840887071428]
話者匿名化は、音声録音における音声を変化させることで話者の同一性を隠蔽することを目的としている。
これは一般的に、個人の保護とダウンストリームアプリケーションにおけるデータのユーザビリティとの間の、プライバシーとユーティリティのトレードオフが伴う。
本稿では,ワッサースタイン距離をコスト関数として生成した逆数ネットワークを用いて話者埋め込みを生成することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:12:42Z) - Improving Self-Supervised Speech Representations by Disentangling
Speakers [56.486084431528695]
音声における自己教師付き学習は、大規模無意味な音声コーパス上で、音声表現ネットワークを訓練することを含む。
話者を遠ざけることは非常に困難であり、スピーカー情報を削除すればコンテンツも失われる可能性がある。
本稿では,コンテンツが著しく失われることなく,話者のゆがみを解消できる新しいSSL手法を提案する。
論文 参考訳(メタデータ) (2022-04-20T04:56:14Z) - Privacy-Preserving Speech Representation Learning using Vector
Quantization [0.0]
音声信号には、プライバシー上の懸念を引き起こす話者のアイデンティティなど、多くの機密情報が含まれている。
本稿では,音声認識性能を保ちながら匿名表現を実現することを目的とする。
論文 参考訳(メタデータ) (2022-03-15T14:01:11Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。