論文の概要: Vocoder drift compensation by x-vector alignment in speaker
anonymisation
- arxiv url: http://arxiv.org/abs/2307.08403v1
- Date: Mon, 17 Jul 2023 11:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 13:44:51.344671
- Title: Vocoder drift compensation by x-vector alignment in speaker
anonymisation
- Title(参考訳): 話者匿名化におけるxベクトルアライメントによるボコーダドリフト補正
- Authors: Michele Panariello, Massimiliano Todisco, Nicholas Evans
- Abstract要約: 本稿では,いわゆるボコーダドリフトの起源を考察し,代用したxベクターと言語内容,イントネーション,韻律の本来の表現とのミスマッチによるものであることを示す。
また、ボコーダドリフト補償に対する元来のアプローチも報告されている。
- 参考スコア(独自算出の注目度): 11.480724899031149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For the most popular x-vector-based approaches to speaker anonymisation, the
bulk of the anonymisation can stem from vocoding rather than from the core
anonymisation function which is used to substitute an original speaker x-vector
with that of a fictitious pseudo-speaker. This phenomenon can impede the design
of better anonymisation systems since there is a lack of fine-grained control
over the x-vector space. The work reported in this paper explores the origin of
so-called vocoder drift and shows that it is due to the mismatch between the
substituted x-vector and the original representations of the linguistic
content, intonation and prosody. Also reported is an original approach to
vocoder drift compensation. While anonymisation performance degrades as
expected, compensation reduces vocoder drift substantially, offers improved
control over the x-vector space and lays a foundation for the design of better
anonymisation functions in the future.
- Abstract(参考訳): 話者匿名化に対する最も一般的なxベクターベースのアプローチでは、匿名化の大部分は、元の話者xベクターを架空の擬似話者のものと置き換えるために使用されるコア匿名化関数ではなく、ボコーディングに由来する。
この現象は、x-ベクトル空間に対するきめ細かい制御が欠けているため、より良い匿名化システムの設計を妨げる可能性がある。
この論文で報告された研究は、いわゆるボコーダドリフトの起源を探求し、置換されたx-ベクトルと言語内容、イントネーション、韻律のオリジナル表現とのミスマッチが原因であることを示した。
また、ボコーダドリフト補償に対する元来のアプローチも報告されている。
匿名化性能は予想通りに低下するが、補償はvocoderのドリフトを大幅に削減し、x-vector空間の制御を改善し、将来より良い匿名化関数の設計の基礎となる。
関連論文リスト
- Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - Look-back Decoding for Open-Ended Text Generation [62.53302138266465]
本研究では,現在の復号化過程と過去の復号化過程の分布距離を追跡する改良された復号化アルゴリズムであるLook-backを提案する。
ルックバックは、潜在的反復句とトピックドリフトを自動的に予測し、障害モードを引き起こす可能性のあるトークンを削除することができる。
文書の継続とストーリー生成に関する復号実験を行い、Look-backがより流動的で一貫性のあるテキストを生成することを実証する。
論文 参考訳(メタデータ) (2023-05-22T20:42:37Z) - AudioSlots: A slot-centric generative model for audio separation [26.51135156983783]
本稿では,音声領域におけるブラインド音源分離のためのスロット中心生成モデルであるAudioSlotsを提案する。
我々は、置換同変損失関数を用いて、エンド・ツー・エンドでモデルを訓練する。
We results on Libri2Mix speech separation is a proof of concept that this approach shows promise。
論文 参考訳(メタデータ) (2023-05-09T16:28:07Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Are disentangled representations all you need to build speaker
anonymization systems? [0.0]
音声信号には、話者のアイデンティティなど、多くの機密情報が含まれている。
話者匿名化は、音源話者の身元をそのまま残しながら、音声信号を変換し、音源話者の身元を除去することを目的としている。
論文 参考訳(メタデータ) (2022-08-22T07:51:47Z) - On the invertibility of a voice privacy system using embedding
alignement [0.0]
本稿では,組込みアライメント技術を用いた音声匿名化システムにおける各種攻撃シナリオについて検討する。
最適な回転を計算し、この近似結果と公式のVoice Privacy Challenge結果を比較する。
論文 参考訳(メタデータ) (2021-10-08T14:43:47Z) - Speaker Anonymization with Distribution-Preserving X-Vector Generation
for the VoicePrivacy Challenge 2020 [19.420608243033794]
本稿では,VoicePrivacy Challenge 2020への提出として,分散保存音声匿名化手法を提案する。
提案手法は, 有機話者Xベクトルの相似性分布をより正確に追従するXベクトルを生成する方法を示す。
論文 参考訳(メタデータ) (2020-10-26T09:53:56Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Design Choices for X-vector Based Speaker Anonymization [48.46018902334472]
第1回VoicePrivacy Challengeのベースラインとして,フレキシブルな擬似話者選択手法を提案する。
LibriSpeechから派生したデータセットを使用して実験を行い、プライバシとユーティリティの観点から設計選択の最適な組み合わせを見つける。
論文 参考訳(メタデータ) (2020-05-18T11:32:14Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。