論文の概要: Adversarial Privacy Protection on Speech Enhancement
- arxiv url: http://arxiv.org/abs/2206.08170v1
- Date: Thu, 16 Jun 2022 13:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 16:56:24.587009
- Title: Adversarial Privacy Protection on Speech Enhancement
- Title(参考訳): 音声強調における敵対的プライバシー保護
- Authors: Mingyu Dong and Diqun Yan and Rangding Wang
- Abstract要約: 音声は、異なる状況で携帯電話によって記録されるなど、容易に漏れやすい。
ディープニューラルネットワーク(DNN)と共に音声強調技術が急速に発達した
そこで本研究では,音声強調システムにおける逆解析手法を提案する。
- 参考スコア(独自算出の注目度): 2.1700203922407493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech is easily leaked imperceptibly, such as being recorded by mobile
phones in different situations. Private content in speech may be maliciously
extracted through speech enhancement technology. Speech enhancement technology
has developed rapidly along with deep neural networks (DNNs), but adversarial
examples can cause DNNs to fail. In this work, we propose an adversarial method
to degrade speech enhancement systems. Experimental results show that generated
adversarial examples can erase most content information in original examples or
replace it with target speech content through speech enhancement. The word
error rate (WER) between an enhanced original example and enhanced adversarial
example recognition result can reach 89.0%. WER of target attack between
enhanced adversarial example and target example is low to 33.75% . Adversarial
perturbation can bring the rate of change to the original example to more than
1.4430. This work can prevent the malicious extraction of speech.
- Abstract(参考訳): 音声は、異なる状況で携帯電話によって記録されるなど、容易に漏れやすい。
音声中のプライベートコンテンツは、音声強調技術によって悪意をもって抽出される。
音声強調技術はディープニューラルネットワーク(DNN)とともに急速に発展してきたが、敵対的な例としてはDNNが失敗することがある。
そこで本研究では,音声強調システムにおける逆解析手法を提案する。
実験の結果,生成した逆例では,原例のほとんどのコンテンツ情報が消去されるか,音声強調によって対象音声に置き換えられることがわかった。
拡張元例と拡張元例認識結果との間の単語誤り率(WER)は89.0%に達する。
強化された敵の例と標的の例の間の標的攻撃は33.75%である。
対向的な摂動は、元の例に変化の速度を1.4430以上に導くことができる。
この作業は、悪意ある音声の抽出を防ぐことができる。
関連論文リスト
- Mitigating Unauthorized Speech Synthesis for Voice Protection [7.1578783467799]
悪意のある音声による搾取は 我々の日常生活に大きな危険をもたらしました
個人音声など機密情報を含む公開音声データを保護することが重要である。
本稿では,従来の音声サンプルに知覚不可能な誤り最小化雑音を適用したPivotal Objective Perturbation(POP)を提案する。
論文 参考訳(メタデータ) (2024-10-28T05:16:37Z) - SWE2: SubWord Enriched and Significant Word Emphasized Framework for Hate Speech Detection [3.0460060805145517]
本稿では,メッセージの内容のみに依存し,ヘイトスピーチを自動的に識別するSWE2という新しいヘイトスピーチ検出フレームワークを提案する。
実験結果から,提案モデルでは0.975の精度と0.953のマクロF1が達成され,最先端の7つのベースラインを上回った。
論文 参考訳(メタデータ) (2024-09-25T07:05:44Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Generating Watermarked Adversarial Texts [25.285034639688377]
近年では、ディープニューラルネットワーク(DNN)が生成した敵のサンプルを誤分類する可能性があるため、敵のサンプル生成がホットスポットとなっている。
本稿では,透かし付き逆テキストの例を生成するための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-25T13:37:23Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Towards Resistant Audio Adversarial Examples [0.0]
生成プロセスの欠陥により、最先端の逆例生成手法が過度な適合を引き起こすことが判明した。
我々は,この欠陥を緩和するアプローチを考案し,異なるオフセットを持つ逆例の生成を改善する方法を見出した。
論文 参考訳(メタデータ) (2020-10-14T16:04:02Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。