Fugu-MT 論文翻訳(概要): Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding

論文の概要: Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding

arxiv url: http://arxiv.org/abs/2406.08200v3
Date: Tue, 12 Nov 2024 06:46:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.529898
Title: Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding
Title（参考訳）: 話者埋め込みにおける対向的摂動を用いた非同期音声匿名化
Authors: Rui Wang, Liping Chen, Kong AiK Lee, Zhen-Hua Ling,
Abstract要約: 我々は、人間の知覚を維持しながら、音声認識に対して音声属性を変更することに重点を置いている。話者ゆがみ機構を組み込んだ音声生成フレームワークを用いて匿名化音声を生成する。 LibriSpeechデータセットで行った実験では、話者の属性は、その人の知覚が処理された発話の60.71%で保存されていることが判明した。
参考スコア（独自算出の注目度）: 46.25816642820348
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Voice anonymization has been developed as a technique for preserving privacy by replacing the speaker's voice in a speech signal with that of a pseudo-speaker, thereby obscuring the original voice attributes from machine recognition and human perception. In this paper, we focus on altering the voice attributes against machine recognition while retaining human perception. We referred to this as the asynchronous voice anonymization. To this end, a speech generation framework incorporating a speaker disentanglement mechanism is employed to generate the anonymized speech. The speaker attributes are altered through adversarial perturbation applied on the speaker embedding, while human perception is preserved by controlling the intensity of perturbation. Experiments conducted on the LibriSpeech dataset showed that the speaker attributes were obscured with their human perception preserved for 60.71% of the processed utterances.
Abstract（参考訳）: 音声の匿名化は、音声信号における話者の音声を擬似話者の音声に置き換え、機械認識や人間の知覚から本来の音声属性を隠蔽することにより、プライバシーを守る技術として開発されている。本稿では,人間の知覚を維持しながら,音声認識に対する音声特性の変化に着目した。これを非同期音声匿名化と呼ぶ。この目的のために、話者ゆがみ機構を組み込んだ音声生成フレームワークを用いて匿名化音声を生成する。話者属性は、話者埋め込みに印加された対角摂動によって変更され、人間の知覚は摂動の強度を制御して保持される。 LibriSpeechデータセットで行った実験では、話者の属性は、その人の知覚が処理された発話の60.71%で保存されていることが判明した。

関連論文リスト

Analysis of Speech Temporal Dynamics in the Context of Speaker Verification and Voice Anonymization [17.048523623756623]
自動話者検証および話者音声匿名化タスクへの適用における音声時間ダイナミクスの影響について検討する。音素持続時間のみに基づいて自動話者検証を行うための指標をいくつか提案する。
論文参考訳（メタデータ） (2024-12-22T21:18:08Z)
A Benchmark for Multi-speaker Anonymization [9.990701310620368]
本稿では,実世界のアプリケーションを対象としたマルチ話者匿名化ベンチマークを提案する。カスケードシステムは、話者ダイアリゼーションを使用して、各話者の音声を集約し、話者匿名化を行い、話者のプライバシーを隠蔽し、音声コンテンツを保存する。非オーバーラップシミュレーションと実世界のデータセットによる実験は、マルチスピーカー匿名化システムの有効性を実証している。
論文参考訳（メタデータ） (2024-07-08T04:48:43Z)
Evaluation of Speaker Anonymization on Emotional Speech [9.223908421919733]
音声データには、話者のアイデンティティや感情状態など、さまざまな個人情報が含まれている。最近の研究は、音声のプライバシーを守るという話題に対処している。 VoicePrivacy 2020 Challenge(VPC)は、話者の匿名化に関するものだ。
論文参考訳（メタデータ） (2023-04-15T20:50:29Z)
Are disentangled representations all you need to build speaker anonymization systems? [0.0]
音声信号には、話者のアイデンティティなど、多くの機密情報が含まれている。話者匿名化は、音源話者の身元をそのまま残しながら、音声信号を変換し、音源話者の身元を除去することを目的としている。
論文参考訳（メタデータ） (2022-08-22T07:51:47Z)
Self-Supervised Speech Representations Preserve Speech Characteristics while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。変換音声は、元の音声の1%以内に低い単語誤り率を保持する。調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文参考訳（メタデータ） (2022-04-04T17:48:01Z)
Differentially Private Speaker Anonymization [44.90119821614047]
実世界の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。言語的属性と韻律的属性は依然として話者情報を含んでいる。
論文参考訳（メタデータ） (2022-02-23T23:20:30Z)
High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文参考訳（メタデータ） (2021-01-31T10:54:27Z)
Speaker De-identification System using Autoencoders and Adversarial Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文参考訳（メタデータ） (2020-11-09T19:22:05Z)
Defending Your Voice: Adversarial Attack on Voice Conversion [70.19396655909455]
音声変換に対する対人攻撃を最初に行う試みについて報告する。音声を守らなければならない話者の発話に、人間の騒音が知覚できないことを紹介する。その結果, 変換された発話の話者特性は, 防御された話者と明らかに異なることがわかった。
論文参考訳（メタデータ） (2020-05-18T14:51:54Z)
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。 SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2020-01-23T05:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。