論文の概要: Anonymizing Speech with Generative Adversarial Networks to Preserve
Speaker Privacy
- arxiv url: http://arxiv.org/abs/2210.07002v2
- Date: Fri, 14 Oct 2022 13:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 12:31:48.844110
- Title: Anonymizing Speech with Generative Adversarial Networks to Preserve
Speaker Privacy
- Title(参考訳): 話者プライバシ保護のための生成的対立ネットワークによる音声の匿名化
- Authors: Sarina Meyer, Pascal Tilli, Pavel Denisov, Florian Lux, Julia Koch,
Ngoc Thang Vu
- Abstract要約: 話者匿名化は、音声録音における音声を変化させることで話者の同一性を隠蔽することを目的としている。
これは一般的に、個人の保護とダウンストリームアプリケーションにおけるデータのユーザビリティとの間の、プライバシーとユーティリティのトレードオフが伴う。
本稿では,ワッサースタイン距離をコスト関数として生成した逆数ネットワークを用いて話者埋め込みを生成することで,この問題に対処することを提案する。
- 参考スコア(独自算出の注目度): 22.84840887071428
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In order to protect the privacy of speech data, speaker anonymization aims
for hiding the identity of a speaker by changing the voice in speech
recordings. This typically comes with a privacy-utility trade-off between
protection of individuals and usability of the data for downstream
applications. One of the challenges in this context is to create non-existent
voices that sound as natural as possible.
In this work, we propose to tackle this issue by generating speaker
embeddings using a generative adversarial network with Wasserstein distance as
cost function. By incorporating these artificial embeddings into a
speech-to-text-to-speech pipeline, we outperform previous approaches in terms
of privacy and utility. According to standard objective metrics and human
evaluation, our approach generates intelligible and content-preserving yet
privacy-protecting versions of the original recordings.
- Abstract(参考訳): 音声データのプライバシーを保護するため、話者匿名化は、音声録音中の音声を変更して話者のアイデンティティを隠すことを目的としている。
これは典型的には、個人の保護と下流アプリケーションにおけるデータのユーザビリティの間のプライバシ利用のトレードオフを伴う。
この文脈における課題の1つは、できるだけ自然に聞こえる、存在しない声を作り出すことである。
本稿では,wasserstein距離をコスト関数とする生成型逆ネットワークを用いて話者埋め込みを生成することにより,この問題に取り組むことを提案する。
これらの人工埋め込みを音声-テキスト-音声パイプラインに組み込むことで、プライバシとユーティリティの観点から従来のアプローチより優れている。
標準的な客観的指標と人的評価により,本手法はオリジナル録音の知的かつコンテンツ保護的かつプライバシー保護的バージョンを生成する。
関連論文リスト
- A Benchmark for Multi-speaker Anonymization [9.990701310620368]
本稿では,実世界のアプリケーションを対象としたマルチ話者匿名化ベンチマークを提案する。
カスケードシステムは、話者ダイアリゼーションを使用して、各話者の音声を集約し、話者匿名化を行い、話者のプライバシーを隠蔽し、音声コンテンツを保存する。
非オーバーラップシミュレーションと実世界のデータセットによる実験は、マルチスピーカー匿名化システムの有効性を実証している。
論文 参考訳(メタデータ) (2024-07-08T04:48:43Z) - Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding [46.25816642820348]
我々は、人間の知覚を維持しながら、音声認識に対して音声属性を変更することに重点を置いている。
話者ゆがみ機構を組み込んだ音声生成フレームワークを用いて匿名化音声を生成する。
LibriSpeechデータセットで行った実験では、話者の属性は、その人の知覚が処理された発話の60.71%で保存されていることが判明した。
論文 参考訳(メタデータ) (2024-06-12T13:33:24Z) - Anonymizing Speech: Evaluating and Designing Speaker Anonymization
Techniques [1.2691047660244337]
音声ユーザインタフェースの利用が増加し、音声データの収集と保存が急増した。
本論文は、音声の匿名化と匿名化の程度を評価するためのソリューションを提案する。
論文 参考訳(メタデータ) (2023-08-05T16:14:17Z) - ChatGPT for Us: Preserving Data Privacy in ChatGPT via Dialogue Text
Ambiguation to Expand Mental Health Care Delivery [52.73936514734762]
ChatGPTは人間のような対話を生成する能力で人気を集めている。
データに敏感なドメインは、プライバシとデータ所有に関する懸念から、ChatGPTを使用する際の課題に直面している。
ユーザのプライバシーを守るためのテキスト曖昧化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T02:09:52Z) - Evaluation of Speaker Anonymization on Emotional Speech [9.223908421919733]
音声データには、話者のアイデンティティや感情状態など、さまざまな個人情報が含まれている。
最近の研究は、音声のプライバシーを守るという話題に対処している。
VoicePrivacy 2020 Challenge(VPC)は、話者の匿名化に関するものだ。
論文 参考訳(メタデータ) (2023-04-15T20:50:29Z) - Generating gender-ambiguous voices for privacy-preserving speech
recognition [38.733077459065704]
我々は、話者の性別やアイデンティティを隠蔽する音声を合成する生成的敵ネットワークGenGANを提案する。
我々は、性別情報のみにジェネレータを条件とし、信号歪みとプライバシ保護の間の敵対的損失を利用する。
論文 参考訳(メタデータ) (2022-07-03T14:23:02Z) - Differentially Private Speaker Anonymization [44.90119821614047]
実世界の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。
話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。
言語的属性と韻律的属性は依然として話者情報を含んでいる。
論文 参考訳(メタデータ) (2022-02-23T23:20:30Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Design Choices for X-vector Based Speaker Anonymization [48.46018902334472]
第1回VoicePrivacy Challengeのベースラインとして,フレキシブルな擬似話者選択手法を提案する。
LibriSpeechから派生したデータセットを使用して実験を行い、プライバシとユーティリティの観点から設計選択の最適な組み合わせを見つける。
論文 参考訳(メタデータ) (2020-05-18T11:32:14Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。