論文の概要: An Integrated Algorithm for Robust and Imperceptible Audio Adversarial
Examples
- arxiv url: http://arxiv.org/abs/2310.03349v1
- Date: Thu, 5 Oct 2023 06:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 17:14:33.002290
- Title: An Integrated Algorithm for Robust and Imperceptible Audio Adversarial
Examples
- Title(参考訳): ロバストで知覚不能な音声の逆解析のための統合アルゴリズム
- Authors: Armin Ettenhofer and Jan-Philipp Schulze and Karla Pizzi
- Abstract要約: 実効性のある音声ファイルが生成され、認識性や頑健性に関して微調整される。
本稿では,心理音響モデルと室内インパルス応答(RIR)を用いた統合アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.2866551516539726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio adversarial examples are audio files that have been manipulated to fool
an automatic speech recognition (ASR) system, while still sounding benign to a
human listener. Most methods to generate such samples are based on a two-step
algorithm: first, a viable adversarial audio file is produced, then, this is
fine-tuned with respect to perceptibility and robustness. In this work, we
present an integrated algorithm that uses psychoacoustic models and room
impulse responses (RIR) in the generation step. The RIRs are dynamically
created by a neural network during the generation process to simulate a
physical environment to harden our examples against transformations experienced
in over-the-air attacks. We compare the different approaches in three
experiments: in a simulated environment and in a realistic over-the-air
scenario to evaluate the robustness, and in a human study to evaluate the
perceptibility. Our algorithms considering psychoacoustics only or in addition
to the robustness show an improvement in the signal-to-noise ratio (SNR) as
well as in the human perception study, at the cost of an increased word error
rate (WER).
- Abstract(参考訳): 音声相手の例は、人間のリスナーの良さを保ちながら、自動音声認識システム(ASR)を騙すために操作されたオーディオファイルである。
これらのサンプルを生成するほとんどの方法は、2段階のアルゴリズムに基づいている: まず、実行可能な逆オーディオファイルを生成し、その後、知覚性と頑健性に関して微調整する。
本稿では,生成過程における心理音響モデルと室内インパルス応答(rir)を用いた統合アルゴリズムを提案する。
RIRは、生成プロセス中にニューラルネットワークによって動的に生成され、物理的環境をシミュレートして、オーバー・ザ・エア攻撃で経験した変換に対するサンプルを強化します。
シミュレーションされた環境と現実的なオーバー・ザ・エアシナリオの3つの実験において、ロバスト性を評価するために異なるアプローチを比較し、人間の研究でその知覚性を評価する。
強靭性に加えて心理音響のみを考慮したアルゴリズムは, 単語誤り率(WER)の増大を犠牲にして, 信号-雑音比(SNR)および人間の知覚研究において改善したことを示す。
関連論文リスト
- Bayesian inference and neural estimation of acoustic wave propagation [10.980762871305279]
本稿では,物理と機械学習を組み合わせて音響信号を解析する新しい枠組みを提案する。
この課題のために, スペクトル音響特性を推定するベイズ推定法, 前方および後方の物理的損失をニューラルネットワークに装備するニューラルネットワーク物理モデル, ベンチマークとして機能する非線形最小二乗法, の3つの手法が開発された。
このフレームワークの単純さと効率性は、シミュレーションデータ上で実証的に検証されている。
論文 参考訳(メタデータ) (2023-05-28T15:14:46Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Deep Impulse Responses: Estimating and Parameterizing Filters with Deep
Networks [76.830358429947]
高雑音および地中設定におけるインパルス応答推定は難しい問題である。
本稿では,ニューラル表現学習の最近の進歩に基づいて,インパルス応答のパラメータ化と推定を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:57:23Z) - Perlin Noise Improve Adversarial Robustness [9.084544535198509]
敵対的な例は、ディープニューラルネットワークの出力を摂動できる特別な入力である。
逆例を生成する方法の多くは勾配情報を必要とする。
手続き的雑音対向例は、新しい対向例生成方法である。
論文 参考訳(メタデータ) (2021-12-26T15:58:28Z) - Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition
Systems [1.599072005190786]
音声認識システムは、家電の音声ナビゲーションや音声制御への応用に広く利用されている。
ディープニューラルネットワーク(DNN)は、敵の摂動に感受性があることが示されている。
本稿では,ASRSの正しさをテストするため,ブラックボックスの自動生成手法を提案する。
論文 参考訳(メタデータ) (2021-12-03T10:21:47Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - On Procedural Adversarial Noise Attack And Defense [2.5388455804357952]
逆の例では、ニューラルネットワークが入力画像に小さな修正を加えて予測エラーを発生させる。
本稿では,手続き型雑音関数に基づく2つのユニバーサル対向摂動(UAP)生成手法を提案する。
セマンティック表現を変更することなく、我々の手法によって生成された敵の例は攻撃に対して優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-10T02:47:01Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。