論文の概要: Audio Adversarial Examples: Attacks Using Vocal Masks
- arxiv url: http://arxiv.org/abs/2102.02417v1
- Date: Thu, 4 Feb 2021 05:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 20:49:24.626183
- Title: Audio Adversarial Examples: Attacks Using Vocal Masks
- Title(参考訳): 音声反対例:声帯マスクを用いた攻撃
- Authors: Lynnette Ng, Kai Yuan Tay, Wei Han Chua, Lucerne Loke, Danqi Ye,
Melissa Chua
- Abstract要約: 自動音声テキストシステム上での音声対向例を構築した。
我々は、オリジナル音声から生成された音声のボーカルマスクをオーバーレイすることで、別の音声を生成する。
We apply our audio adversarial attack to five SOTA STT system: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We construct audio adversarial examples on automatic Speech-To-Text systems .
Given any audio waveform, we produce an another by overlaying an audio vocal
mask generated from the original audio. We apply our audio adversarial attack
to five SOTA STT systems: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and
CMUSphinx. In addition, we engaged human annotators to transcribe the
adversarial audio. Our experiments show that these adversarial examples fool
State-Of-The-Art Speech-To-Text systems, yet humans are able to consistently
pick out the speech. The feasibility of this attack introduces a new domain to
study machine and human perception of speech.
- Abstract(参考訳): 自動音声テキストシステム上での音声対向例を構築した。
音声波形が与えられると、元の音声から生成された音声音声マスクをオーバーレイして別の音声を生成する。
We apply our audio adversarial attack to five SOTA STT system: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx。
さらに,人間アノテータに敵対音声の書き起こしを依頼した。
我々の実験では、これらの敵対的な例はState-Of-The-Art Speech-To-Textシステムを騙すが、人間は一貫して音声を選ぶことができる。
この攻撃の可能性は、機械と人間の音声知覚を研究する新しい領域を導入する。
関連論文リスト
- Muting Whisper: A Universal Acoustic Adversarial Attack on Speech Foundation Models [5.942307521138583]
モデル動作を操作するために,「特殊トークン」を敵攻撃によって利用することができることを示す。
本稿では,Whisper の $texttt|endoftext|>$ token の普遍的な音響的実現方法を提案する。
実験では、同じ0.64秒の対向音声セグメントが、ターゲットのWhisper ASRモデルを97%以上の音声サンプルでミュートできることを示した。
論文 参考訳(メタデータ) (2024-05-09T22:59:23Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - FOOCTTS: Generating Arabic Speech with Acoustic Environment for Football
Commentator [8.89134799076718]
アプリケーションはユーザからテキストを取得し、母音化などのテキスト前処理を適用し、次にコメンテーターの音声合成装置が続く。
パイプラインには、データラベリングのためのアラビア自動音声認識、CTCセグメンテーション、音声にマッチする転写母音化、TTSの微調整などが含まれていた。
論文 参考訳(メタデータ) (2023-06-07T12:33:02Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - "Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the
Real World [14.295573703789493]
ディープラーニングの進歩は、ターゲット話者が話すように聞こえる音声を生成できる、新しい音声合成ツールの波を導入した。
本稿では,深層学習に基づく音声合成攻撃が人間の聴取者および機械に与える影響について,包括的実験から得られた知見を報告する。
人間と機械の両方が、合成音声によって確実に騙され、既存の合成音声に対する防御が不足していることがわかりました。
論文 参考訳(メタデータ) (2021-09-20T14:53:22Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。