論文の概要: Hear No Evil: Towards Adversarial Robustness of Automatic Speech
Recognition via Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2204.02381v1
- Date: Tue, 5 Apr 2022 17:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 14:39:14.803516
- Title: Hear No Evil: Towards Adversarial Robustness of Automatic Speech
Recognition via Multi-Task Learning
- Title(参考訳): 聴覚の悪:マルチタスク学習による自動音声認識の逆ロバスト性を目指して
- Authors: Nilaksh Das, Duen Horng Chau
- Abstract要約: 本研究では,マルチタスク学習が音声領域におけるASRモデルの対角的ロバスト性に及ぼす影響について検討する。
提案手法は,17.25から59.90までの敵目標WERにおいて,絶対的な改善が見られた。
我々の研究は、ASRのマルチタスク学習による敵の堅牢性向上を明らかにする最初の詳細な研究である。
- 参考スコア(独自算出の注目度): 13.735883484044166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As automatic speech recognition (ASR) systems are now being widely deployed
in the wild, the increasing threat of adversarial attacks raises serious
questions about the security and reliability of using such systems. On the
other hand, multi-task learning (MTL) has shown success in training models that
can resist adversarial attacks in the computer vision domain. In this work, we
investigate the impact of performing such multi-task learning on the
adversarial robustness of ASR models in the speech domain. We conduct extensive
MTL experimentation by combining semantically diverse tasks such as accent
classification and ASR, and evaluate a wide range of adversarial settings. Our
thorough analysis reveals that performing MTL with semantically diverse tasks
consistently makes it harder for an adversarial attack to succeed. We also
discuss in detail the serious pitfalls and their related remedies that have a
significant impact on the robustness of MTL models. Our proposed MTL approach
shows considerable absolute improvements in adversarially targeted WER ranging
from 17.25 up to 59.90 compared to single-task learning baselines (attention
decoder and CTC respectively). Ours is the first in-depth study that uncovers
adversarial robustness gains from multi-task learning for ASR.
- Abstract(参考訳): 現在、自動音声認識(ASR)システムが広く普及しているため、敵攻撃の脅威の増大は、そのようなシステムを使用する際のセキュリティと信頼性に関する深刻な疑問を引き起こす。
一方で、マルチタスク学習(mtl)は、コンピュータビジョン領域における敵対的攻撃に抵抗できるトレーニングモデルでの成功を示している。
本研究では,このようなマルチタスク学習が音声領域におけるASRモデルの対角的堅牢性に与える影響について検討する。
我々はアクセント分類やASRといった意味論的に多様なタスクを組み合わせることで広範囲なMTL実験を行い、幅広い敵対的設定を評価する。
我々の徹底的な分析によると、意味的に多様なタスクでMLLを実行すると、敵攻撃が成功しにくくなる。
また,MTLモデルの堅牢性に大きな影響を及ぼす深刻な落とし穴とその対策についても詳細に論じる。
提案するmtlアプローチは,単タスク学習ベースライン(それぞれアテンションデコーダとctc)と比較して,17.25から59.90まで,対向的ターゲットwerの絶対的改善を示す。
我々の研究は、ASRのマルチタスク学習による敵の堅牢性向上を明らかにする最初の詳細な研究である。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。
既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。
本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文 参考訳(メタデータ) (2025-02-03T17:59:45Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - AI Safety in Practice: Enhancing Adversarial Robustness in Multimodal Image Captioning [0.0]
視覚データとテキストデータを組み合わせたマルチモーダル機械学習モデルは、ますます重要なアプリケーションにデプロイされている。
本稿では,マルチモーダル画像キャプションモデルの敵攻撃に対する堅牢性を高めるための効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T20:28:31Z) - Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Multi-Task Models Adversarial Attacks [25.834775498006657]
マルチタスク学習はマルチタスクモデルとして知られる特異モデルを開発し、複数のタスクを同時に実行する。
シングルタスクモデルのセキュリティは徹底的に研究されているが、マルチタスクモデルはいくつかの重要なセキュリティ問題を引き起こす。
本稿では,これらの質問に対して,詳細な分析と厳密な実験を通じて対処する。
論文 参考訳(メタデータ) (2023-05-20T03:07:43Z) - SkeleVision: Towards Adversarial Resiliency of Person Tracking with
Multi-Task Learning [12.245882404444881]
広く使用されているSiamRPNトラッカーの対角的堅牢性に及ぼすマルチタスク学習(MTL)の影響について検討した。
具体的には、人追跡と人間のキーポイント検出のセマンティックな類似タスクと共同学習の効果について検討する。
シミュレーションと実世界のデータセットを用いた実証研究により、MTLを用いたトレーニングがSiamRPNトラッカーの攻撃を一貫して困難にしていることが明らかになった。
論文 参考訳(メタデータ) (2022-04-02T01:21:09Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。