論文の概要: Defending Your Voice: Adversarial Attack on Voice Conversion
- arxiv url: http://arxiv.org/abs/2005.08781v3
- Date: Tue, 4 May 2021 15:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:41:18.846526
- Title: Defending Your Voice: Adversarial Attack on Voice Conversion
- Title(参考訳): 声を守る: 声の変換に対する敵対的攻撃
- Authors: Chien-yu Huang, Yist Y. Lin, Hung-yi Lee, Lin-shan Lee
- Abstract要約: 音声変換に対する対人攻撃を最初に行う試みについて報告する。
音声を守らなければならない話者の発話に、人間の騒音が知覚できないことを紹介する。
その結果, 変換された発話の話者特性は, 防御された話者と明らかに異なることがわかった。
- 参考スコア(独自算出の注目度): 70.19396655909455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Substantial improvements have been achieved in recent years in voice
conversion, which converts the speaker characteristics of an utterance into
those of another speaker without changing the linguistic content of the
utterance. Nonetheless, the improved conversion technologies also led to
concerns about privacy and authentication. It thus becomes highly desired to be
able to prevent one's voice from being improperly utilized with such voice
conversion technologies. This is why we report in this paper the first known
attempt to perform adversarial attack on voice conversion. We introduce human
imperceptible noise into the utterances of a speaker whose voice is to be
defended. Given these adversarial examples, voice conversion models cannot
convert other utterances so as to sound like being produced by the defended
speaker. Preliminary experiments were conducted on two currently
state-of-the-art zero-shot voice conversion models. Objective and subjective
evaluation results in both white-box and black-box scenarios are reported. It
was shown that the speaker characteristics of the converted utterances were
made obviously different from those of the defended speaker, while the
adversarial examples of the defended speaker are not distinguishable from the
authentic utterances.
- Abstract(参考訳): 近年,発話の言語的内容を変えることなく,発話の話者特性を他の話者に変換する音声変換において,実質的な改善が達成されている。
それでも、改良された変換技術は、プライバシーと認証に関する懸念につながった。
そのため、このような音声変換技術で不適切に音声が利用されることを防止することが望まれる。
そこで本稿では,音声変換に対する敵意攻撃を行う最初の試みとして報告する。
音声を守らなければならない話者の発話に、人間の知覚できない雑音を導入する。
これらの逆の例を考えると、音声変換モデルは、防御された話者によって作られるように他の発話を変換できない。
現在最先端のゼロショット音声変換モデルの予備実験を行った。
ホワイトボックスとブラックボックスの両方のシナリオにおける客観的および主観的な評価結果を報告する。
その結果, 変換話者の話者特性は, 防御話者の話者と明らかに異なっており, 防御話者の対角的例は真の発話と区別できないことがわかった。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Who is Authentic Speaker [4.822108779108675]
音声変換は、操作された音声が偽りの目的で使用される場合、潜在的な社会的問題を引き起こす可能性がある。
音源の音響特性が大きく変化しているため、変換された音声から実際の話者が誰であるかを見つけることは大きな課題である。
本研究は, 話者の声が異なるターゲット音声に変換された場合でも, 音源話者からの特定の情報が持続するという仮定を用いて行った。
論文 参考訳(メタデータ) (2024-04-30T23:41:00Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Toward Degradation-Robust Voice Conversion [94.60503904292916]
あらゆる音声変換技術は、発話の発声音を訓練中に見つからないあらゆる話者に変換する。
話者の清潔な発話を収集することは困難であり、通常はノイズや残響によって劣化する。
本稿では,任意の音声変換の頑健性の劣化に関する総合的研究を報告する。
論文 参考訳(メタデータ) (2021-10-14T17:00:34Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。