論文の概要: ASRJam: Human-Friendly AI Speech Jamming to Prevent Automated Phone Scams
- arxiv url: http://arxiv.org/abs/2506.11125v1
- Date: Tue, 10 Jun 2025 10:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.488869
- Title: ASRJam: Human-Friendly AI Speech Jamming to Prevent Automated Phone Scams
- Title(参考訳): ASRJam:自動化された電話詐欺を防ぐAI音声ジャミング
- Authors: Freddie Grabovski, Gilad Gressel, Yisroel Mirsky,
- Abstract要約: 大規模言語モデル (LLM) とテキスト音声認識 (TTS) と自動音声認識 (ASR) を組み合わせることで、音声フィッシング (vishing) 詐欺の自動化がますます進んでいる。
ASRJamは、攻撃者のASRを妨害するために、被害者の音声に敵の摂動を注入するプロアクティブディフェンスフレームワークである。
また、残響やエコーなどの自然な歪みを利用した新しいジャマーであるEchoGuardも提案する。
- 参考スコア(独自算出の注目度): 2.6528263069045126
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs), combined with Text-to-Speech (TTS) and Automatic Speech Recognition (ASR), are increasingly used to automate voice phishing (vishing) scams. These systems are scalable and convincing, posing a significant security threat. We identify the ASR transcription step as the most vulnerable link in the scam pipeline and introduce ASRJam, a proactive defence framework that injects adversarial perturbations into the victim's audio to disrupt the attacker's ASR. This breaks the scam's feedback loop without affecting human callers, who can still understand the conversation. While prior adversarial audio techniques are often unpleasant and impractical for real-time use, we also propose EchoGuard, a novel jammer that leverages natural distortions, such as reverberation and echo, that are disruptive to ASR but tolerable to humans. To evaluate EchoGuard's effectiveness and usability, we conducted a 39-person user study comparing it with three state-of-the-art attacks. Results show that EchoGuard achieved the highest overall utility, offering the best combination of ASR disruption and human listening experience.
- Abstract(参考訳): 大規模言語モデル (LLM) とテキスト音声認識 (TTS) と自動音声認識 (ASR) を組み合わせることで、音声フィッシング (vishing) 詐欺の自動化がますます進んでいる。
これらのシステムはスケーラブルで説得力があり、重大なセキュリティ上の脅威を生じさせる。
我々は、ASR転写ステップを、スカムパイプラインにおける最も脆弱なリンクとして認識し、攻撃者のASRを破壊するために、被害者のオーディオに敵の摂動を注入するプロアクティブディフェンスフレームワークであるASRJamを導入する。
これは、会話を理解できる人間の呼び出し者に影響を与えることなく、詐欺のフィードバックループを壊す。
従来の敵対的オーディオ技術は、しばしばリアルタイム使用には不愉快で実用的ではないが、残響やエコーなどの自然な歪みを利用する新しいジャマーであるEchoGuardも提案する。
EchoGuardの有効性とユーザビリティを評価するために,39人のユーザを対象に,最先端の3つの攻撃との比較を行った。
結果は、EchoGuardがASRのディスラプションと人間の聴取体験の最高の組み合わせを提供することで、全体として最高のユーティリティを達成したことを示している。
関連論文リスト
- Whispering Under the Eaves: Protecting User Privacy Against Commercial and LLM-powered Automatic Speech Recognition Systems [20.45938874279563]
本稿では,音声認識システムに対して音声認識を保護するための新しいフレームワークであるAudioShieldを提案する。
摂動を潜伏空間に転送することにより、音質は広範囲に保存される。
AudioShieldは、リアルタイムのエンドツーエンドシナリオにおいて高い効果を示し、適応的な対策に対して強力なレジリエンスを示す。
論文 参考訳(メタデータ) (2025-04-01T14:49:39Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Towards Evaluating the Robustness of Automatic Speech Recognition Systems via Audio Style Transfer [8.948537516293328]
本稿では,ユーザ認識スタイルの転送に基づく自動音声認識(ASR)システムに対する攻撃を提案する。
提案手法は,ユーザカスタマイズスタイルの必要性を満たすとともに,攻撃の82%の成功率を達成することができる。
論文 参考訳(メタデータ) (2024-05-15T16:05:24Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition
Systems [1.599072005190786]
音声認識システムは、家電の音声ナビゲーションや音声制御への応用に広く利用されている。
ディープニューラルネットワーク(DNN)は、敵の摂動に感受性があることが示されている。
本稿では,ASRSの正しさをテストするため,ブラックボックスの自動生成手法を提案する。
論文 参考訳(メタデータ) (2021-12-03T10:21:47Z) - WaveGuard: Understanding and Mitigating Audio Adversarial Examples [12.010555227327743]
本稿では,ASRシステムに対する敵入力を検出するフレームワークであるWaveGuardを紹介する。
本フレームワークは,音声変換機能を組み込んで原音声と変換音声のasr転写を解析し,逆入力を検出する。
論文 参考訳(メタデータ) (2021-03-04T21:44:37Z) - Dompteur: Taming Audio Adversarial Examples [28.54699912239861]
敵対的な例では、攻撃者は任意の機械学習システムを操作できる。
本稿では、ASRシステムに対する敵対的事例の存在を受け入れるが、人間の聴取者によって認識されるよう要求する。
心理音響学の原理を適用することで、ASR入力から意味的に無関係な情報を除去し、人間の知覚によく似たモデルを訓練することができる。
論文 参考訳(メタデータ) (2021-02-10T13:53:32Z) - Cortical Features for Defense Against Adversarial Audio Attacks [55.61885805423492]
本稿では,聴覚野の計算モデルを用いて,音声に対する敵対的攻撃に対する防御手法を提案する。
また,大脳皮質の特徴は,普遍的な敵の例に対する防御に有効であることを示す。
論文 参考訳(メタデータ) (2021-01-30T21:21:46Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。