論文の概要: An Integrated Algorithm for Robust and Imperceptible Audio Adversarial
Examples
- arxiv url: http://arxiv.org/abs/2310.03349v1
- Date: Thu, 5 Oct 2023 06:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 17:14:33.002290
- Title: An Integrated Algorithm for Robust and Imperceptible Audio Adversarial
Examples
- Title(参考訳): ロバストで知覚不能な音声の逆解析のための統合アルゴリズム
- Authors: Armin Ettenhofer and Jan-Philipp Schulze and Karla Pizzi
- Abstract要約: 実効性のある音声ファイルが生成され、認識性や頑健性に関して微調整される。
本稿では,心理音響モデルと室内インパルス応答(RIR)を用いた統合アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.2866551516539726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio adversarial examples are audio files that have been manipulated to fool
an automatic speech recognition (ASR) system, while still sounding benign to a
human listener. Most methods to generate such samples are based on a two-step
algorithm: first, a viable adversarial audio file is produced, then, this is
fine-tuned with respect to perceptibility and robustness. In this work, we
present an integrated algorithm that uses psychoacoustic models and room
impulse responses (RIR) in the generation step. The RIRs are dynamically
created by a neural network during the generation process to simulate a
physical environment to harden our examples against transformations experienced
in over-the-air attacks. We compare the different approaches in three
experiments: in a simulated environment and in a realistic over-the-air
scenario to evaluate the robustness, and in a human study to evaluate the
perceptibility. Our algorithms considering psychoacoustics only or in addition
to the robustness show an improvement in the signal-to-noise ratio (SNR) as
well as in the human perception study, at the cost of an increased word error
rate (WER).
- Abstract(参考訳): 音声相手の例は、人間のリスナーの良さを保ちながら、自動音声認識システム(ASR)を騙すために操作されたオーディオファイルである。
これらのサンプルを生成するほとんどの方法は、2段階のアルゴリズムに基づいている: まず、実行可能な逆オーディオファイルを生成し、その後、知覚性と頑健性に関して微調整する。
本稿では,生成過程における心理音響モデルと室内インパルス応答(rir)を用いた統合アルゴリズムを提案する。
RIRは、生成プロセス中にニューラルネットワークによって動的に生成され、物理的環境をシミュレートして、オーバー・ザ・エア攻撃で経験した変換に対するサンプルを強化します。
シミュレーションされた環境と現実的なオーバー・ザ・エアシナリオの3つの実験において、ロバスト性を評価するために異なるアプローチを比較し、人間の研究でその知覚性を評価する。
強靭性に加えて心理音響のみを考慮したアルゴリズムは, 単語誤り率(WER)の増大を犠牲にして, 信号-雑音比(SNR)および人間の知覚研究において改善したことを示す。
関連論文リスト
- Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems [0.3277163122167434]
本稿では,各話者に対して,混合信号と対応する接地真実を含む現実的な学習セットを構築するための新しい手法を提案する。
実感混合における話者分離精度向上のためのSI-SDR(Scale Invariant Signal to Distortion Ratio)を1.65dB改善した。
論文 参考訳(メタデータ) (2024-11-13T06:55:18Z) - Reassessing Noise Augmentation Methods in the Context of Adversarial Speech [12.488332326259469]
自動音声認識システムにおいて,雑音増進学習が対向的堅牢性を同時に改善できるかどうかを検討する。
その結果,雑音の増大は雑音音声のモデル性能を向上するだけでなく,敵攻撃に対するモデルの堅牢性も向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T11:51:10Z) - DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs [12.234206036041218]
我々は、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳ベースの入力が時間の経過とともにどのように処理されるかを調べる。
音声文から自然言語および人工内耳のような入力を生成し、モデル性能と人的性能の類似性を検証した。
各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。
論文 参考訳(メタデータ) (2024-07-30T04:32:27Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Deep Impulse Responses: Estimating and Parameterizing Filters with Deep
Networks [76.830358429947]
高雑音および地中設定におけるインパルス応答推定は難しい問題である。
本稿では,ニューラル表現学習の最近の進歩に基づいて,インパルス応答のパラメータ化と推定を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:57:23Z) - Perlin Noise Improve Adversarial Robustness [9.084544535198509]
敵対的な例は、ディープニューラルネットワークの出力を摂動できる特別な入力である。
逆例を生成する方法の多くは勾配情報を必要とする。
手続き的雑音対向例は、新しい対向例生成方法である。
論文 参考訳(メタデータ) (2021-12-26T15:58:28Z) - Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition
Systems [1.599072005190786]
音声認識システムは、家電の音声ナビゲーションや音声制御への応用に広く利用されている。
ディープニューラルネットワーク(DNN)は、敵の摂動に感受性があることが示されている。
本稿では,ASRSの正しさをテストするため,ブラックボックスの自動生成手法を提案する。
論文 参考訳(メタデータ) (2021-12-03T10:21:47Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。