論文の概要: Privacy against Real-Time Speech Emotion Detection via Acoustic
Adversarial Evasion of Machine Learning
- arxiv url: http://arxiv.org/abs/2211.09273v3
- Date: Tue, 1 Aug 2023 14:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 11:32:44.689001
- Title: Privacy against Real-Time Speech Emotion Detection via Acoustic
Adversarial Evasion of Machine Learning
- Title(参考訳): 機械学習の音響反転によるリアルタイム音声感情検出に対するプライバシ
- Authors: Brian Testa, Yi Xiao, Harshit Sharma, Avery Gump, and Asif Salekin
- Abstract要約: DARE-GPは、音声の書き起こし関連部分を保存しながら、ユーザの感情情報を隠蔽する付加的なノイズを生成するソリューションである。
DARE-GPは、既存の作品と異なり、a) 音声の書き起こしを保護しながら、(b) 未確認のブラックボックスのSER分類器に対して、(b) 音の聞こえない発話をリアルタイムに保護し、(c) 声の書き起こしを現実的に音響的に保護する。
- 参考スコア(独自算出の注目度): 5.552315676636435
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Smart speaker voice assistants (VAs) such as Amazon Echo and Google Home have
been widely adopted due to their seamless integration with smart home devices
and the Internet of Things (IoT) technologies. These VA services raise privacy
concerns, especially due to their access to our speech. This work considers one
such use case: the unaccountable and unauthorized surveillance of a user's
emotion via speech emotion recognition (SER). This paper presents DARE-GP, a
solution that creates additive noise to mask users' emotional information while
preserving the transcription-relevant portions of their speech. DARE-GP does
this by using a constrained genetic programming approach to learn the spectral
frequency traits that depict target users' emotional content, and then
generating a universal adversarial audio perturbation that provides this
privacy protection. Unlike existing works, DARE-GP provides: a) real-time
protection of previously unheard utterances, b) against previously unseen
black-box SER classifiers, c) while protecting speech transcription, and d)
does so in a realistic, acoustic environment. Further, this evasion is robust
against defenses employed by a knowledgeable adversary. The evaluations in this
work culminate with acoustic evaluations against two off-the-shelf commercial
smart speakers using a small-form-factor (raspberry pi) integrated with a
wake-word system to evaluate the efficacy of its real-world, real-time
deployment.
- Abstract(参考訳): Amazon EchoやGoogle Homeのようなスマートスピーカー音声アシスタント(VA)は、スマートホームデバイスとIoT(Internet of Things)技術とのシームレスな統合によって広く採用されている。
これらのvaサービスは、特に私たちのスピーチへのアクセスのために、プライバシーの懸念を引き起こします。
本研究は,音声感情認識(SER)によるユーザの感情の非可算かつ無許可な監視という,そのようなユースケースを考察する。
本稿では,音声の書き起こし関連部分を保ちながら,ユーザの感情情報を隠蔽する付加ノイズを生成するDARE-GPを提案する。
DARE-GPは、制約付き遺伝的プログラミング手法を用いて、ターゲットユーザーの感情的内容を表すスペクトル周波数特性を学習し、このプライバシー保護を提供する普遍的対向的音声摂動を生成する。
既存の作品とは異なり、DARE-GPは次のように提供している。
イ 前例のない発話をリアルタイムに保護すること。
b) 前述のブラックボックスSER分類子に対する
c) 音声転写を保護しながら,かつ
d) 現実的で音響的な環境ではそうする。
さらに、この回避は、知識のある敵が使う防御に対して堅牢である。
本研究は,2つの市販スマートスピーカーに対して,覚醒語システムと一体化した小型フォームファクタ(ラズベリーパイ)を用いて音響評価を行い,実世界のリアルタイム展開の有効性を評価する。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - STAA-Net: A Sparse and Transferable Adversarial Attack for Speech
Emotion Recognition [36.73727306933382]
本稿では,SERモデルを騙すために,スパースおよびトランスファー可能な逆数例を生成するジェネレータベースの攻撃手法を提案する。
我々は、広く使われている2つのSERデータセット、DEMoS(DemoS)とIEMOCAP(Interactive Emotional Dyadic Motion CAPture)について、本手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-02T08:46:57Z) - Evaluation of Speaker Anonymization on Emotional Speech [9.223908421919733]
音声データには、話者のアイデンティティや感情状態など、さまざまな個人情報が含まれている。
最近の研究は、音声のプライバシーを守るという話題に対処している。
VoicePrivacy 2020 Challenge(VPC)は、話者の匿名化に関するものだ。
論文 参考訳(メタデータ) (2023-04-15T20:50:29Z) - Anonymizing Speech with Generative Adversarial Networks to Preserve
Speaker Privacy [22.84840887071428]
話者匿名化は、音声録音における音声を変化させることで話者の同一性を隠蔽することを目的としている。
これは一般的に、個人の保護とダウンストリームアプリケーションにおけるデータのユーザビリティとの間の、プライバシーとユーティリティのトレードオフが伴う。
本稿では,ワッサースタイン距離をコスト関数として生成した逆数ネットワークを用いて話者埋め込みを生成することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-10-13T13:12:42Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Voice Privacy with Smart Digital Assistants in Educational Settings [1.8369974607582578]
ソースにおける音声プライバシーのための実用的で効率的なフレームワークを設計・評価する。
このアプローチでは、話者識別(SID)と音声変換法を組み合わせて、音声を記録するデバイス上でユーザのアイデンティティをランダムに偽装する。
我々は、単語誤り率の観点から変換のASR性能を評価し、入力音声の内容を保存する上で、このフレームワークの約束を示す。
論文 参考訳(メタデータ) (2021-03-24T19:58:45Z) - A GAN-based Approach for Mitigating Inference Attacks in Smart Home
Environment [3.785123406103385]
本研究では,スマートホーム利用者をスパイしている敵が,機械学習技術を用いてセンシティブな情報を推測する問題について検討する。
スマートホームにおけるプライバシー保護のためのGAN(Generative Adrial Network)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-13T02:14:32Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。