Fugu-MT 論文翻訳(概要): Hear No Evil: Towards Adversarial Robustness of Automatic Speech Recognition via Multi-Task Learning

論文の概要: Hear No Evil: Towards Adversarial Robustness of Automatic Speech Recognition via Multi-Task Learning

arxiv url: http://arxiv.org/abs/2204.02381v1
Date: Tue, 5 Apr 2022 17:40:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-06 14:39:14.803516
Title: Hear No Evil: Towards Adversarial Robustness of Automatic Speech Recognition via Multi-Task Learning
Title（参考訳）: 聴覚の悪:マルチタスク学習による自動音声認識の逆ロバスト性を目指して
Authors: Nilaksh Das, Duen Horng Chau
Abstract要約: 本研究では,マルチタスク学習が音声領域におけるASRモデルの対角的ロバスト性に及ぼす影響について検討する。提案手法は,17.25から59.90までの敵目標WERにおいて,絶対的な改善が見られた。我々の研究は、ASRのマルチタスク学習による敵の堅牢性向上を明らかにする最初の詳細な研究である。
参考スコア（独自算出の注目度）: 13.735883484044166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As automatic speech recognition (ASR) systems are now being widely deployed in the wild, the increasing threat of adversarial attacks raises serious questions about the security and reliability of using such systems. On the other hand, multi-task learning (MTL) has shown success in training models that can resist adversarial attacks in the computer vision domain. In this work, we investigate the impact of performing such multi-task learning on the adversarial robustness of ASR models in the speech domain. We conduct extensive MTL experimentation by combining semantically diverse tasks such as accent classification and ASR, and evaluate a wide range of adversarial settings. Our thorough analysis reveals that performing MTL with semantically diverse tasks consistently makes it harder for an adversarial attack to succeed. We also discuss in detail the serious pitfalls and their related remedies that have a significant impact on the robustness of MTL models. Our proposed MTL approach shows considerable absolute improvements in adversarially targeted WER ranging from 17.25 up to 59.90 compared to single-task learning baselines (attention decoder and CTC respectively). Ours is the first in-depth study that uncovers adversarial robustness gains from multi-task learning for ASR.
Abstract（参考訳）: 現在、自動音声認識(ASR)システムが広く普及しているため、敵攻撃の脅威の増大は、そのようなシステムを使用する際のセキュリティと信頼性に関する深刻な疑問を引き起こす。一方で、マルチタスク学習(mtl)は、コンピュータビジョン領域における敵対的攻撃に抵抗できるトレーニングモデルでの成功を示している。本研究では,このようなマルチタスク学習が音声領域におけるASRモデルの対角的堅牢性に与える影響について検討する。我々はアクセント分類やASRといった意味論的に多様なタスクを組み合わせることで広範囲なMTL実験を行い、幅広い敵対的設定を評価する。我々の徹底的な分析によると、意味的に多様なタスクでMLLを実行すると、敵攻撃が成功しにくくなる。また,MTLモデルの堅牢性に大きな影響を及ぼす深刻な落とし穴とその対策についても詳細に論じる。提案するmtlアプローチは,単タスク学習ベースライン(それぞれアテンションデコーダとctc)と比較して,17.25から59.90まで,対向的ターゲットwerの絶対的改善を示す。我々の研究は、ASRのマルチタスク学習による敵の堅牢性向上を明らかにする最初の詳細な研究である。

関連論文リスト

Quality Text, Robust Vision: The Role of Language in Enhancing Visual Robustness of Vision-Language Models [17.259725776748482]
頑健な微調整のための既存の敵の訓練手法は、視覚的堅牢性を高める上での言語の役割を概ね見落としている。本研究では,QT-AFT(Quality Text-guided Adversarial Fine-Tuning)を提案する。 QT-AFTは、16のゼロショットデータセットで評価された、最先端のゼロショット対向ロバスト性とクリーンな精度を達成する。
論文参考訳（メタデータ） (2025-07-22T06:13:30Z)
Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。 LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2025-05-31T13:11:14Z)
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文参考訳（メタデータ） (2025-05-01T01:54:00Z)
Survey of Adversarial Robustness in Multimodal Large Language Models [17.926240920647892]
MLLM(Multimodal Large Language Models)は、人工知能において例外的な性能を示す。現実世界のアプリケーションへのデプロイは、敵の脆弱性に対する重大な懸念を引き起こす。本稿では,MLLMの対角的ロバスト性について述べる。
論文参考訳（メタデータ） (2025-03-18T06:54:59Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文参考訳（メタデータ） (2025-02-03T17:59:45Z)
Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文参考訳（メタデータ） (2025-01-23T11:10:02Z)
AI Safety in Practice: Enhancing Adversarial Robustness in Multimodal Image Captioning [0.0]
視覚データとテキストデータを組み合わせたマルチモーダル機械学習モデルは、ますます重要なアプリケーションにデプロイされている。本稿では,マルチモーダル画像キャプションモデルの敵攻撃に対する堅牢性を高めるための効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-07-30T20:28:31Z)
Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文参考訳（メタデータ） (2024-07-29T09:55:34Z)
VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。近年,マルチモーダル・インストラクション・チューニングが提案されている。敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文参考訳（メタデータ） (2024-02-21T14:54:30Z)
On the Robustness of Large Multimodal Models Against Image Adversarial Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。一般的に,LMMは視覚的逆入力に対して頑健ではない。本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-12-06T04:59:56Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文参考訳（メタデータ） (2023-06-22T22:13:03Z)
Multi-Task Models Adversarial Attacks [25.834775498006657]
マルチタスク学習はマルチタスクモデルとして知られる特異モデルを開発し、複数のタスクを同時に実行する。シングルタスクモデルのセキュリティは徹底的に研究されているが、マルチタスクモデルはいくつかの重要なセキュリティ問題を引き起こす。本稿では,これらの質問に対して,詳細な分析と厳密な実験を通じて対処する。
論文参考訳（メタデータ） (2023-05-20T03:07:43Z)
Learning Transferable Adversarial Robust Representations via Multi-view Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-10-19T11:48:01Z)
SkeleVision: Towards Adversarial Resiliency of Person Tracking with Multi-Task Learning [12.245882404444881]
広く使用されているSiamRPNトラッカーの対角的堅牢性に及ぼすマルチタスク学習(MTL)の影響について検討した。具体的には、人追跡と人間のキーポイント検出のセマンティックな類似タスクと共同学習の効果について検討する。シミュレーションと実世界のデータセットを用いた実証研究により、MTLを用いたトレーニングがSiamRPNトラッカーの攻撃を一貫して困難にしていることが明らかになった。
論文参考訳（メタデータ） (2022-04-02T01:21:09Z)
Characterizing the adversarial vulnerability of speech self-supervised learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文参考訳（メタデータ） (2021-11-08T08:44:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。