論文の概要: Adversarial Disentanglement of Speaker Representation for
Attribute-Driven Privacy Preservation
- arxiv url: http://arxiv.org/abs/2012.04454v2
- Date: Fri, 23 Apr 2021 09:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:01:04.674628
- Title: Adversarial Disentanglement of Speaker Representation for
Attribute-Driven Privacy Preservation
- Title(参考訳): 属性駆動型プライバシー保護のための話者表現の反転
- Authors: Paul-Gauthier No\'e, Mohammad Mohammadamini, Driss Matrouf, Titouan
Parcollet, Andreas Nautsch, Jean-Fran\c{c}ois Bonastre
- Abstract要約: 話者音声表現における属性駆動プライバシー保存の概念について紹介する。
これにより、悪意のあるインターセプターやアプリケーションプロバイダに1つ以上の個人的な側面を隠すことができる。
本稿では,話者属性の音声表現に絡み合った逆自動符号化手法を提案し,その隠蔽を可能にする。
- 参考スコア(独自算出の注目度): 17.344080729609026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In speech technologies, speaker's voice representation is used in many
applications such as speech recognition, voice conversion, speech synthesis
and, obviously, user authentication. Modern vocal representations of the
speaker are based on neural embeddings. In addition to the targeted
information, these representations usually contain sensitive information about
the speaker, like the age, sex, physical state, education level or ethnicity.
In order to allow the user to choose which information to protect, we introduce
in this paper the concept of attribute-driven privacy preservation in speaker
voice representation. It allows a person to hide one or more personal aspects
to a potential malicious interceptor and to the application provider. As a
first solution to this concept, we propose to use an adversarial autoencoding
method that disentangles in the voice representation a given speaker attribute
thus allowing its concealment. We focus here on the sex attribute for an
Automatic Speaker Verification (ASV) task. Experiments carried out using the
VoxCeleb datasets have shown that the proposed method enables the concealment
of this attribute while preserving ASV ability.
- Abstract(参考訳): 音声技術では、話者の音声表現は音声認識、音声変換、音声合成、そして明らかにユーザー認証といった多くのアプリケーションで使われている。
現代の話者の音声表現は神経埋め込みに基づいている。
対象とする情報に加えて、これらの表現は通常、年齢、性別、身体状態、教育水準、民族性などの話者に関する機密情報を含む。
本稿では,ユーザが保護すべき情報を選択するために,話者音声表現における属性駆動型プライバシ保護の概念を紹介する。
これにより、悪意のあるインターセプターやアプリケーションプロバイダに1つ以上の個人的な側面を隠すことができる。
この概念に対する第1の解決策として, 話者属性の音声表現を不連続にすることでその隠蔽を可能にする, 逆オートエンコーディング法を提案する。
ここでは、自動話者検証(ASV)タスクの性属性に焦点を当てる。
VoxCelebデータセットを用いて行った実験により、提案手法はASV能力を保ちながら、この属性の隠蔽を可能にすることが示された。
関連論文リスト
- Are disentangled representations all you need to build speaker
anonymization systems? [0.0]
音声信号には、話者のアイデンティティなど、多くの機密情報が含まれている。
話者匿名化は、音源話者の身元をそのまま残しながら、音声信号を変換し、音源話者の身元を除去することを目的としている。
論文 参考訳(メタデータ) (2022-08-22T07:51:47Z) - Privacy-Preserving Speech Representation Learning using Vector
Quantization [0.0]
音声信号には、プライバシー上の懸念を引き起こす話者のアイデンティティなど、多くの機密情報が含まれている。
本稿では,音声認識性能を保ちながら匿名表現を実現することを目的とする。
論文 参考訳(メタデータ) (2022-03-15T14:01:11Z) - Differentially Private Speaker Anonymization [44.90119821614047]
実世界の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。
話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。
言語的属性と韻律的属性は依然として話者情報を含んでいる。
論文 参考訳(メタデータ) (2022-02-23T23:20:30Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Voice Privacy with Smart Digital Assistants in Educational Settings [1.8369974607582578]
ソースにおける音声プライバシーのための実用的で効率的なフレームワークを設計・評価する。
このアプローチでは、話者識別(SID)と音声変換法を組み合わせて、音声を記録するデバイス上でユーザのアイデンティティをランダムに偽装する。
我々は、単語誤り率の観点から変換のASR性能を評価し、入力音声の内容を保存する上で、このフレームワークの約束を示す。
論文 参考訳(メタデータ) (2021-03-24T19:58:45Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。