論文の概要: Speaker Anonymization with Distribution-Preserving X-Vector Generation
for the VoicePrivacy Challenge 2020
- arxiv url: http://arxiv.org/abs/2010.13457v2
- Date: Tue, 5 Jan 2021 16:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:50:49.165782
- Title: Speaker Anonymization with Distribution-Preserving X-Vector Generation
for the VoicePrivacy Challenge 2020
- Title(参考訳): 分散保存型Xベクトル生成を用いたVoicePrivacy Challenge 2020における話者匿名化
- Authors: Henry Turner, Giulio Lovisotto and Ivan Martinovic
- Abstract要約: 本稿では,VoicePrivacy Challenge 2020への提出として,分散保存音声匿名化手法を提案する。
提案手法は, 有機話者Xベクトルの相似性分布をより正確に追従するXベクトルを生成する方法を示す。
- 参考スコア(独自算出の注目度): 19.420608243033794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a Distribution-Preserving Voice Anonymization
technique, as our submission to the VoicePrivacy Challenge 2020. We observe
that the challenge baseline system generates fake X-vectors which are very
similar to each other, significantly more so than those extracted from organic
speakers. This difference arises from averaging many X-vectors from a pool of
speakers in the anonymization process, causing a loss of information. We
propose a new method to generate fake X-vectors which overcomes these
limitations by preserving the distributional properties of X-vectors and their
intra-similarity. We use population data to learn the properties of the
X-vector space, before fitting a generative model which we use to sample fake
X-vectors. We show how this approach generates X-vectors that more closely
follow the expected intra-similarity distribution of organic speaker X-vectors.
Our method can be easily integrated with others as the anonymization component
of the system and removes the need to distribute a pool of speakers to use
during the anonymization. Our approach leads to an increase in EER of up to
$19.4\%$ in males and $11.1\%$ in females in scenarios where enrollment and
trial utterances are anonymized versus the baseline solution, demonstrating the
diversity of our generated voices.
- Abstract(参考訳): 本稿では,VoicePrivacy Challenge 2020への応募として,分散保存音声匿名化手法を提案する。
課題ベースラインシステムは,有機スピーカーから抽出したものよりもはるかに高い精度で,互いに非常によく似た,偽のXベクトルを生成する。
この違いは、匿名化プロセスにおいて多くのx-ベクトルを話者プールから平均し、情報の喪失を引き起こすことから生じる。
本稿では,x-ベクトルの分布特性とその類似性を保ちながら,これらの限界を克服する新しいx-ベクトル生成法を提案する。
我々は人口データを用いてx-ベクトル空間の性質を学習し、偽のx-ベクトルをサンプリングする生成モデルに適合させる。
提案手法は, 有機話者Xベクトルの相似性分布をより正確に追従するXベクトルを生成する方法を示す。
本手法は,システムの匿名化コンポーネントとして他者と容易に統合でき,匿名化時に使用する話者のプールを配布する必要がなくなる。
我々のアプローチは、男性で最大19.4\%$、女性で1.1\%$のeerの増加につながります。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Vocoder drift compensation by x-vector alignment in speaker
anonymisation [11.480724899031149]
本稿では,いわゆるボコーダドリフトの起源を考察し,代用したxベクターと言語内容,イントネーション,韻律の本来の表現とのミスマッチによるものであることを示す。
また、ボコーダドリフト補償に対する元来のアプローチも報告されている。
論文 参考訳(メタデータ) (2023-07-17T11:38:35Z) - Dior-CVAE: Pre-trained Language Models and Diffusion Priors for
Variational Dialog Generation [70.2283756542824]
Dior-CVAEは階層型条件変分オートエンコーダ(CVAE)である。
拡散モデルを用いて、従来の分布の複雑さを増大させ、PLMが生成した分布との整合性を高める。
2つのオープンドメインダイアログデータセットを対象とした実験により,大規模ダイアログ事前学習を必要とせずに,より多様な応答を生成できることが判明した。
論文 参考訳(メタデータ) (2023-05-24T11:06:52Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Symmetric Saliency-based Adversarial Attack To Speaker Identification [17.087523686496958]
我々は、対称サリエンシに基づくエンコーダデコーダ(SSED)と呼ばれる、新しい世代ネットワークベースのアプローチを提案する。
まず,新規な唾液マップデコーダを用いて,対象話者識別システムの決定に対する音声サンプルの重要性を学習する。
第2に,話者を音源から遠ざける角度損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-30T08:54:02Z) - Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - On the invertibility of a voice privacy system using embedding
alignement [0.0]
本稿では,組込みアライメント技術を用いた音声匿名化システムにおける各種攻撃シナリオについて検討する。
最適な回転を計算し、この近似結果と公式のVoice Privacy Challenge結果を比較する。
論文 参考訳(メタデータ) (2021-10-08T14:43:47Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Design Choices for X-vector Based Speaker Anonymization [48.46018902334472]
第1回VoicePrivacy Challengeのベースラインとして,フレキシブルな擬似話者選択手法を提案する。
LibriSpeechから派生したデータセットを使用して実験を行い、プライバシとユーティリティの観点から設計選択の最適な組み合わせを見つける。
論文 参考訳(メタデータ) (2020-05-18T11:32:14Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。