Fugu-MT 論文翻訳(概要): Imperceptible Rhythm Backdoor Attacks: Exploring Rhythm Transformation for Embedding Undetectable Vulnerabilities on Speech Recognition

論文の概要: Imperceptible Rhythm Backdoor Attacks: Exploring Rhythm Transformation for Embedding Undetectable Vulnerabilities on Speech Recognition

arxiv url: http://arxiv.org/abs/2406.10932v2
Date: Thu, 22 Aug 2024 03:21:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 19:05:52.015875
Title: Imperceptible Rhythm Backdoor Attacks: Exploring Rhythm Transformation for Embedding Undetectable Vulnerabilities on Speech Recognition
Title（参考訳）: 知覚不能なリズムバックドアアタック: 音声認識に検出不能な脆弱性を埋め込むためのリズムトランスフォーメーションの探索
Authors: Wenhan Yao, Jiangkun Yang, Yongqiang He, Jia Liu, Weiping Wen,
Abstract要約: 近年,音声認識システムにおいて,典型的なバックドア攻撃が研究されている。攻撃者は、良質な音声スペクトログラムにいくつかの組み込まれた変更を加えたり、ピッチや音色などの音声成分を変更したりする。データ中毒のステルス性を改善するために,ランダム・スペクトログラム・リズム・トランスフォーメーション (Random Spectrogram Rhythm Transformation) と呼ばれる非ニューラルかつ高速なアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 4.164975438207411
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Speech recognition is an essential start ring of human-computer interaction, and recently, deep learning models have achieved excellent success in this task. However, when the model training and private data provider are always separated, some security threats that make deep neural networks (DNNs) abnormal deserve to be researched. In recent years, the typical backdoor attacks have been researched in speech recognition systems. The existing backdoor methods are based on data poisoning. The attacker adds some incorporated changes to benign speech spectrograms or changes the speech components, such as pitch and timbre. As a result, the poisoned data can be detected by human hearing or automatic deep algorithms. To improve the stealthiness of data poisoning, we propose a non-neural and fast algorithm called Random Spectrogram Rhythm Transformation (RSRT) in this paper. The algorithm combines four steps to generate stealthy poisoned utterances. From the perspective of rhythm component transformation, our proposed trigger stretches or squeezes the mel spectrograms and recovers them back to signals. The operation keeps timbre and content unchanged for good stealthiness. Our experiments are conducted on two kinds of speech recognition tasks, including testing the stealthiness of poisoned samples by speaker verification and automatic speech recognition. The results show that our method has excellent effectiveness and stealthiness. The rhythm trigger needs a low poisoning rate and gets a very high attack success rate.
Abstract（参考訳）: 音声認識は人間とコンピュータの相互作用において重要なスタートリングであり、近年ではディープラーニングモデルがこのタスクにおいて優れた成功を収めている。しかし、モデルトレーニングとプライベートデータプロバイダが常に分離されている場合、ディープニューラルネットワーク(DNN)を異常にするセキュリティ脅威は研究されるべきである。近年,音声認識システムにおいて,典型的なバックドア攻撃が研究されている。既存のバックドア法はデータ中毒に基づいている。攻撃者は、良質な音声スペクトログラムにいくつかの組み込まれた変更を加えたり、ピッチや音色などの音声成分を変更したりする。その結果、ヒトの聴力や自動深度アルゴリズムにより、有毒なデータを検出できる。本稿では,データ中毒のステルス性を改善するために,ランダムスペクトログラムリズム変換(Random Spectrogram Rhythm Transformation, RRT)と呼ばれる非ニューラルかつ高速なアルゴリズムを提案する。アルゴリズムは4つのステップを組み合わせて、ステルス性の有毒な発話を生成する。リズム成分変換の観点から、提案するトリガーは、メルスペクトルを伸縮または圧縮し、信号に戻す。操作は、良好なステルス性のために、音色と内容は変わらない。本研究は,話者検証と自動音声認識による有毒試料の盗聴テストを含む,2種類の音声認識タスクについて行った。その結果,本手法は有効性とステルス性に優れていた。リズムトリガーは低中毒率を必要とし、非常に高い攻撃成功率を得る。

関連論文リスト

Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。 Invisible Backdoor Attack (IBA) を提案する。
論文参考訳（メタデータ） (2025-03-22T10:41:46Z)
Can DeepFake Speech be Reliably Detected? [17.10792531439146]
この研究は、最先端のオープンソース音声検出装置に対する能動的悪意のある攻撃に関する最初の体系的研究である。その結果、敵の脅威が進行する中で、より堅牢な検出方法が緊急に必要であることが明らかとなった。
論文参考訳（メタデータ） (2024-10-09T06:13:48Z)
What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文参考訳（メタデータ） (2023-12-15T09:52:17Z)
Breaking Speaker Recognition with PaddingBack [18.219474338850787]
近年の研究では、音声バックドアは画像バックドアと同様に、変換をトリガーとして利用できることが示されている。パディングバック(PaddingBack)は悪質な操作を利用して有毒なサンプルを生成する無音バックドアアタックである。
論文参考訳（メタデータ） (2023-08-08T10:36:44Z)
Towards Stealthy Backdoor Attacks against Speech Recognition via Elements of Sound [9.24846124692153]
ディープニューラルネットワーク(Deep Neural Network, DNN)は、音声認識の様々な応用に広く採用され、導入されている。本稿では,音声認識に対する毒のみのバックドア攻撃について再検討する。我々は音(例えば、ピッチと音色)の要素を利用して、よりステルスで効果的な毒のみのバックドア攻撃を設計する。
論文参考訳（メタデータ） (2023-07-17T02:58:25Z)
Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文参考訳（メタデータ） (2023-05-18T10:18:59Z)
Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文参考訳（メタデータ） (2021-07-01T08:58:16Z)
Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for End-to-End Speech Systems [78.5097679815944]
本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。
論文参考訳（メタデータ） (2021-03-15T01:11:13Z)
Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。本稿では,WUW検出に適応した音声強調モデルを提案する。これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文参考訳（メタデータ） (2021-01-29T18:44:05Z)
WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文参考訳（メタデータ） (2020-10-29T17:16:59Z)
Private Speech Classification with Secure Multiparty Computation [15.065527713259542]
深層学習に基づく音声分類のための最初のプライバシ保護ソリューションを提案する。我々のアプローチでは、BobがAliceの音声信号を暗号化されていない方法で見ることなく、あるパーティの音声信号を別のパーティのディープニューラルネットワークで分類することができる。畳み込みニューラルネットワークを用いた音声からのプライバシー保護感情検出のユースケースとして,提案手法の効率・セキュリティ・正確性トレードオフを評価する。
論文参考訳（メタデータ） (2020-07-01T05:26:06Z)
Lattice-based Improvements for Voice Triggering Using Graph Neural Networks [12.378732821814816]
誤ったトリガーの緩和は、プライバシー中心の非侵入型スマートアシスタントを構築する上で重要な側面である。本稿では,グラフニューラルネットワーク(GNN)を用いた自動音声認識(ASR)格子の解析に基づく新しい手法を用いて,FTM(False trigger mitigation)の課題に対処する。実験では,99%の真正率(TPR)で偽トリガーの87%を軽減し,FTMタスクにおいてGNNが極めて正確であることを実証した。
論文参考訳（メタデータ） (2020-01-25T01:34:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。