論文の概要: Hear No Evil: Towards Adversarial Robustness of Automatic Speech
Recognition via Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2204.02381v1
- Date: Tue, 5 Apr 2022 17:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 14:39:14.803516
- Title: Hear No Evil: Towards Adversarial Robustness of Automatic Speech
Recognition via Multi-Task Learning
- Title(参考訳): 聴覚の悪:マルチタスク学習による自動音声認識の逆ロバスト性を目指して
- Authors: Nilaksh Das, Duen Horng Chau
- Abstract要約: 本研究では,マルチタスク学習が音声領域におけるASRモデルの対角的ロバスト性に及ぼす影響について検討する。
提案手法は,17.25から59.90までの敵目標WERにおいて,絶対的な改善が見られた。
我々の研究は、ASRのマルチタスク学習による敵の堅牢性向上を明らかにする最初の詳細な研究である。
- 参考スコア(独自算出の注目度): 13.735883484044166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As automatic speech recognition (ASR) systems are now being widely deployed
in the wild, the increasing threat of adversarial attacks raises serious
questions about the security and reliability of using such systems. On the
other hand, multi-task learning (MTL) has shown success in training models that
can resist adversarial attacks in the computer vision domain. In this work, we
investigate the impact of performing such multi-task learning on the
adversarial robustness of ASR models in the speech domain. We conduct extensive
MTL experimentation by combining semantically diverse tasks such as accent
classification and ASR, and evaluate a wide range of adversarial settings. Our
thorough analysis reveals that performing MTL with semantically diverse tasks
consistently makes it harder for an adversarial attack to succeed. We also
discuss in detail the serious pitfalls and their related remedies that have a
significant impact on the robustness of MTL models. Our proposed MTL approach
shows considerable absolute improvements in adversarially targeted WER ranging
from 17.25 up to 59.90 compared to single-task learning baselines (attention
decoder and CTC respectively). Ours is the first in-depth study that uncovers
adversarial robustness gains from multi-task learning for ASR.
- Abstract(参考訳): 現在、自動音声認識(ASR)システムが広く普及しているため、敵攻撃の脅威の増大は、そのようなシステムを使用する際のセキュリティと信頼性に関する深刻な疑問を引き起こす。
一方で、マルチタスク学習(mtl)は、コンピュータビジョン領域における敵対的攻撃に抵抗できるトレーニングモデルでの成功を示している。
本研究では,このようなマルチタスク学習が音声領域におけるASRモデルの対角的堅牢性に与える影響について検討する。
我々はアクセント分類やASRといった意味論的に多様なタスクを組み合わせることで広範囲なMTL実験を行い、幅広い敵対的設定を評価する。
我々の徹底的な分析によると、意味的に多様なタスクでMLLを実行すると、敵攻撃が成功しにくくなる。
また,MTLモデルの堅牢性に大きな影響を及ぼす深刻な落とし穴とその対策についても詳細に論じる。
提案するmtlアプローチは,単タスク学習ベースライン(それぞれアテンションデコーダとctc)と比較して,17.25から59.90まで,対向的ターゲットwerの絶対的改善を示す。
我々の研究は、ASRのマルチタスク学習による敵の堅牢性向上を明らかにする最初の詳細な研究である。
関連論文リスト
- AI Safety in Practice: Enhancing Adversarial Robustness in Multimodal Image Captioning [0.0]
視覚データとテキストデータを組み合わせたマルチモーダル機械学習モデルは、ますます重要なアプリケーションにデプロイされている。
本稿では,マルチモーダル画像キャプションモデルの敵攻撃に対する堅牢性を高めるための効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T20:28:31Z) - Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Multi-Task Models Adversarial Attacks [25.834775498006657]
マルチタスク学習はマルチタスクモデルとして知られる特異モデルを開発し、複数のタスクを同時に実行する。
シングルタスクモデルのセキュリティは徹底的に研究されているが、マルチタスクモデルはいくつかの重要なセキュリティ問題を引き起こす。
本稿では,これらの質問に対して,詳細な分析と厳密な実験を通じて対処する。
論文 参考訳(メタデータ) (2023-05-20T03:07:43Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z) - SkeleVision: Towards Adversarial Resiliency of Person Tracking with
Multi-Task Learning [12.245882404444881]
広く使用されているSiamRPNトラッカーの対角的堅牢性に及ぼすマルチタスク学習(MTL)の影響について検討した。
具体的には、人追跡と人間のキーポイント検出のセマンティックな類似タスクと共同学習の効果について検討する。
シミュレーションと実世界のデータセットを用いた実証研究により、MTLを用いたトレーニングがSiamRPNトラッカーの攻撃を一貫して困難にしていることが明らかになった。
論文 参考訳(メタデータ) (2022-04-02T01:21:09Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。