論文の概要: Protecting gender and identity with disentangled speech representations
- arxiv url: http://arxiv.org/abs/2104.11051v1
- Date: Thu, 22 Apr 2021 13:31:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 18:00:47.138412
- Title: Protecting gender and identity with disentangled speech representations
- Title(参考訳): 不整合表現によるジェンダーとアイデンティティの保護
- Authors: Dimitrios Stoidis and Andrea Cavallaro
- Abstract要約: 音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
- 参考スコア(独自算出の注目度): 49.00162808063399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Besides its linguistic content, our speech is rich in biometric information
that can be inferred by classifiers. Learning privacy-preserving
representations for speech signals enables downstream tasks without sharing
unnecessary, private information about an individual. In this paper, we show
that protecting gender information in speech is more effective than modelling
speaker-identity information only when generating a non-sensitive
representation of speech. Our method relies on reconstructing speech by
decoding linguistic content along with gender information using a variational
autoencoder. Specifically, we exploit disentangled representation learning to
encode information about different attributes into separate subspaces that can
be factorised independently. We present a novel way to encode gender
information and disentangle two sensitive biometric identifiers, namely gender
and identity, in a privacy-protecting setting. Experiments on the LibriSpeech
dataset show that gender recognition and speaker verification can be reduced to
a random guess, protecting against classification-based attacks, while
maintaining the utility of the signal for speech recognition.
- Abstract(参考訳): 言語内容に加えて、我々のスピーチは分類器によって推測できる生体情報に富んでいる。
音声信号のプライバシー保護表現の学習は、個人に関する不要なプライベート情報を共有することなく、下流タスクを可能にする。
本稿では, 音声の非感性表現を生成する場合にのみ, 音声における性別情報の保護が話者識別情報のモデル化よりも効果的であることを示す。
本手法は,変分オートエンコーダを用いた言語コンテンツとジェンダー情報との復号化による音声再構成に依拠する。
具体的には,異なる属性に関する情報を独立に分解可能な部分空間に符号化するために,不整合表現学習を利用する。
本稿では、性別情報をエンコードし、2つの敏感な生体認証識別子(性別とアイデンティティ)をプライバシー保護設定でアンタングルする方法を提案する。
LibriSpeechデータセットの実験では、性別認識と話者検証はランダムな推測に還元され、分類に基づく攻撃から保護され、音声認識のための信号の有用性を維持している。
関連論文リスト
- SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Generating gender-ambiguous voices for privacy-preserving speech
recognition [38.733077459065704]
我々は、話者の性別やアイデンティティを隠蔽する音声を合成する生成的敵ネットワークGenGANを提案する。
我々は、性別情報のみにジェネレータを条件とし、信号歪みとプライバシ保護の間の敵対的損失を利用する。
論文 参考訳(メタデータ) (2022-07-03T14:23:02Z) - Improving speaker de-identification with functional data analysis of f0
trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文 参考訳(メタデータ) (2022-03-31T01:34:15Z) - Privacy-Preserving Speech Representation Learning using Vector
Quantization [0.0]
音声信号には、プライバシー上の懸念を引き起こす話者のアイデンティティなど、多くの機密情報が含まれている。
本稿では,音声認識性能を保ちながら匿名表現を実現することを目的とする。
論文 参考訳(メタデータ) (2022-03-15T14:01:11Z) - Differentially Private Speaker Anonymization [44.90119821614047]
実世界の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。
話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。
言語的属性と韻律的属性は依然として話者情報を含んでいる。
論文 参考訳(メタデータ) (2022-02-23T23:20:30Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Adversarial Disentanglement of Speaker Representation for
Attribute-Driven Privacy Preservation [17.344080729609026]
話者音声表現における属性駆動プライバシー保存の概念について紹介する。
これにより、悪意のあるインターセプターやアプリケーションプロバイダに1つ以上の個人的な側面を隠すことができる。
本稿では,話者属性の音声表現に絡み合った逆自動符号化手法を提案し,その隠蔽を可能にする。
論文 参考訳(メタデータ) (2020-12-08T14:47:23Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。