論文の概要: Privacy against Real-Time Speech Emotion Detection via Acoustic
Adversarial Evasion of Machine Learning
- arxiv url: http://arxiv.org/abs/2211.09273v2
- Date: Sat, 29 Jul 2023 05:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 00:04:09.278045
- Title: Privacy against Real-Time Speech Emotion Detection via Acoustic
Adversarial Evasion of Machine Learning
- Title(参考訳): 機械学習の音響反転によるリアルタイム音声感情検出に対するプライバシ
- Authors: Brian Testa, Yi Xiao, Avery Gump, and Asif Salekin
- Abstract要約: この研究は、スマートスピーカーの利便性を損なうことなく、スマートスピーカーに接続されたブラックボックスSER分類器を回避する能力を示す。
遺伝的プログラミング(DARE-GP)による感情の音響認識(Defeating Acoustic Recognition of Emotion, DRE-GP)は、遺伝的プログラミングを用いて、非侵襲的な付加的な音声摂動を生成する。
- 参考スコア(独自算出の注目度): 5.956779409640442
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Emotional Surveillance is an emerging area with wide-reaching privacy
concerns. These concerns are exacerbated by ubiquitous IoT devices with
multiple sensors that can support these surveillance use cases. The work
presented here considers one such use case: the use of a speech emotion
recognition (SER) classifier tied to a smart speaker. This work demonstrates
the ability to evade black-box SER classifiers tied to a smart speaker without
compromising the utility of the smart speaker. This privacy concern is
considered through the lens of adversarial evasion of machine learning. Our
solution, Defeating Acoustic Recognition of Emotion via Genetic Programming
(DARE-GP), uses genetic programming to generate non-invasive additive audio
perturbations (AAPs). By constraining the evolution of these AAPs,
transcription accuracy can be protected while simultaneously degrading SER
classifier performance. The additive nature of these AAPs, along with an
approach that generates these AAPs for a fixed set of users in an utterance and
user location-independent manner, supports real-time, real-world evasion of SER
classifiers. DARE-GP's use of spectral features, which underlay the emotional
content of speech, allows the transferability of AAPs to previously unseen
black-box SER classifiers. Further, DARE-GP outperforms state-of-the-art SER
evasion techniques and is robust against defenses employed by a knowledgeable
adversary. The evaluations in this work culminate with acoustic evaluations
against two off-the-shelf commercial smart speakers, where a single AAP could
evade a black box classifier over 70% of the time. The final evaluation
deployed AAP playback on a small-form-factor system (raspberry pi) integrated
with a wake-word system to evaluate the efficacy of a real-world, real-time
deployment where DARE-GP is automatically invoked with the smart speaker's wake
word.
- Abstract(参考訳): 感情監視(Emotional Surveillance)は、プライバシーの懸念が高まりつつある分野だ。
これらの懸念は、監視ユースケースをサポートする複数のセンサーを備えたユビキタスIoTデバイスによって悪化する。
ここでは、スマートスピーカーに接続された音声感情認識(SER)分類器の使用という、そのようなユースケースについて考察する。
この研究は、スマートスピーカーの利便性を損なうことなく、スマートスピーカーに接続されたブラックボックスSER分類器を回避する能力を示す。
このプライバシーの懸念は、機械学習の敵対的回避のレンズを通して考慮される。
遺伝的プログラミング(dare-gp)による感情の音響認識を打破するソリューションは,非侵襲的付加音響摂動(aaps)を生成するために遺伝的プログラミングを用いる。
これらのAAPの進化を制限することにより、SER分類器の性能を低下させながら、転写精度を保護できる。
これらのAAPの付加的な性質は、発話とユーザ位置に依存しない方法で、固定されたユーザに対してこれらのAAPを生成するアプローチとともに、SER分類器のリアルタイム、実世界の回避をサポートする。
DARE-GPによるスペクトル特徴の使用は、音声の感情的内容の基盤となるもので、AAPの転送性は以前は見つからなかったブラックボックスのSER分類器が可能である。
さらに、DARE-GPは最先端のSER回避技術よりも優れており、知識のある敵が使用する防御に対して堅牢である。
本研究の評価は、市販の市販スマートスピーカー2台に対して音響評価を行い、単一のAAPがブラックボックス分類器を70%以上回避できる結果となった。
最終的な評価では、DARE-GPがスマートスピーカーのウェイクワードで自動的に起動される実世界のリアルタイムデプロイメントの有効性を評価するために、ウェイクワードシステムと統合された小さなフォームファクタシステム(ラズベリーpi)にAAP再生をデプロイした。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - STAA-Net: A Sparse and Transferable Adversarial Attack for Speech
Emotion Recognition [36.73727306933382]
本稿では,SERモデルを騙すために,スパースおよびトランスファー可能な逆数例を生成するジェネレータベースの攻撃手法を提案する。
我々は、広く使われている2つのSERデータセット、DEMoS(DemoS)とIEMOCAP(Interactive Emotional Dyadic Motion CAPture)について、本手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-02T08:46:57Z) - Evaluation of Speaker Anonymization on Emotional Speech [9.223908421919733]
音声データには、話者のアイデンティティや感情状態など、さまざまな個人情報が含まれている。
最近の研究は、音声のプライバシーを守るという話題に対処している。
VoicePrivacy 2020 Challenge(VPC)は、話者の匿名化に関するものだ。
論文 参考訳(メタデータ) (2023-04-15T20:50:29Z) - Anonymizing Speech with Generative Adversarial Networks to Preserve
Speaker Privacy [22.84840887071428]
話者匿名化は、音声録音における音声を変化させることで話者の同一性を隠蔽することを目的としている。
これは一般的に、個人の保護とダウンストリームアプリケーションにおけるデータのユーザビリティとの間の、プライバシーとユーティリティのトレードオフが伴う。
本稿では,ワッサースタイン距離をコスト関数として生成した逆数ネットワークを用いて話者埋め込みを生成することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:12:42Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Voice Privacy with Smart Digital Assistants in Educational Settings [1.8369974607582578]
ソースにおける音声プライバシーのための実用的で効率的なフレームワークを設計・評価する。
このアプローチでは、話者識別(SID)と音声変換法を組み合わせて、音声を記録するデバイス上でユーザのアイデンティティをランダムに偽装する。
我々は、単語誤り率の観点から変換のASR性能を評価し、入力音声の内容を保存する上で、このフレームワークの約束を示す。
論文 参考訳(メタデータ) (2021-03-24T19:58:45Z) - A GAN-based Approach for Mitigating Inference Attacks in Smart Home
Environment [3.785123406103385]
本研究では,スマートホーム利用者をスパイしている敵が,機械学習技術を用いてセンシティブな情報を推測する問題について検討する。
スマートホームにおけるプライバシー保護のためのGAN(Generative Adrial Network)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-13T02:14:32Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。