論文の概要: Investigating Vulnerabilities and Defenses Against Audio-Visual Attacks: A Comprehensive Survey Emphasizing Multimodal Models
- arxiv url: http://arxiv.org/abs/2506.11521v1
- Date: Fri, 13 Jun 2025 07:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.689892
- Title: Investigating Vulnerabilities and Defenses Against Audio-Visual Attacks: A Comprehensive Survey Emphasizing Multimodal Models
- Title(参考訳): オーディオ・ビジュアル・アタックに対する脆弱性と防御を探る:マルチモーダルモデルを重視した包括的調査
- Authors: Jinming Wen, Xinyi Wu, Shuai Zhao, Yanhao Jia, Yuwen Li,
- Abstract要約: マルチモーダル・大規模言語モデル(MLLM)は、音声・視覚処理と自然言語処理のギャップを埋める。
MLLMの優れた性能にもかかわらず、高品質なオーディオ視覚訓練データと計算資源の不足は、サードパーティのデータとオープンソースのMLLMの利用を必要とする。
実証的研究は、最新のMLLMを操作して悪意のある、または有害なコンテンツを生成できることを実証している。
- 参考スコア(独自算出の注目度): 25.23931196918614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs), which bridge the gap between audio-visual and natural language processing, achieve state-of-the-art performance on several audio-visual tasks. Despite the superior performance of MLLMs, the scarcity of high-quality audio-visual training data and computational resources necessitates the utilization of third-party data and open-source MLLMs, a trend that is increasingly observed in contemporary research. This prosperity masks significant security risks. Empirical studies demonstrate that the latest MLLMs can be manipulated to produce malicious or harmful content. This manipulation is facilitated exclusively through instructions or inputs, including adversarial perturbations and malevolent queries, effectively bypassing the internal security mechanisms embedded within the models. To gain a deeper comprehension of the inherent security vulnerabilities associated with audio-visual-based multimodal models, a series of surveys investigates various types of attacks, including adversarial and backdoor attacks. While existing surveys on audio-visual attacks provide a comprehensive overview, they are limited to specific types of attacks, which lack a unified review of various types of attacks. To address this issue and gain insights into the latest trends in the field, this paper presents a comprehensive and systematic review of audio-visual attacks, which include adversarial attacks, backdoor attacks, and jailbreak attacks. Furthermore, this paper also reviews various types of attacks in the latest audio-visual-based MLLMs, a dimension notably absent in existing surveys. Drawing upon comprehensive insights from a substantial review, this paper delineates both challenges and emergent trends for future research on audio-visual attacks and defense.
- Abstract(参考訳): 音声視覚処理と自然言語処理のギャップを埋めるマルチモーダルな大規模言語モデル(MLLM)は、複数の音声視覚タスクにおいて最先端のパフォーマンスを達成する。
MLLMの優れた性能にもかかわらず、高品質なオーディオ視覚訓練データや計算資源の不足は、サードパーティのデータとオープンソースのMLLMの利用を必要とする。
この繁栄は重大なセキュリティリスクを隠蔽している。
実証的研究は、最新のMLLMを操作して悪意のある、または有害なコンテンツを生成できることを実証している。
この操作は、敵の摂動や対数的なクエリを含む命令や入力によってのみ促進され、モデルに埋め込まれた内部セキュリティメカニズムを効果的にバイパスする。
オーディオビジュアルベースのマルチモーダルモデルに関連する固有のセキュリティ脆弱性のより深い理解を得るために、一連の調査では、敵やバックドア攻撃など、さまざまな種類の攻撃を調査している。
オーディオ・ビジュアル・アタックに関する既存の調査は包括的概要を提供するが、それらは特定のタイプのアタックに限定されており、様々なタイプのアタックの統一的なレビューが欠如している。
本報告では,この問題に対処し,現場における最新の動向を把握すべく,敵対的攻撃,バックドア攻撃,ジェイルブレイク攻撃を含む,包括的かつ体系的な音声視覚攻撃のレビューを行う。
さらに,本研究では,既存の調査では特に欠落しているMLLMの様々なタイプの攻撃についても検討する。
本論文は,大規模なレビューから包括的知見を引用し,音声・視覚的攻撃と防衛に関する今後の研究の課題と創発的傾向を概説する。
関連論文リスト
- Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。
攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。
普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文 参考訳(メタデータ) (2025-05-02T06:51:11Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [33.49407213040455]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z) - Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models [0.0]
MLLM(Multi-Modal Language Models)は、視覚データとテキストデータを組み合わせた人工知能である。
攻撃者は視覚的またはテキスト的な入力を操作するか、あるいは両方を操作して、意図しないあるいは有害な応答をモデルに生成させる。
本稿では,MLLMの視覚的入力が様々な攻撃戦略によってどのように活用できるかを概説する。
論文 参考訳(メタデータ) (2024-11-07T16:21:18Z) - Securing Large Language Models: Addressing Bias, Misinformation, and Prompt Attacks [12.893445918647842]
大きな言語モデル(LLM)は、様々な分野において印象的な機能を示しているが、その使用の増加は重要なセキュリティ上の懸念を提起している。
この記事では、LLMセキュリティにおける重要な問題に対処する最近の文献をレビューし、正確性、バイアス、コンテンツ検出、攻撃に対する脆弱性に焦点を当てる。
論文 参考訳(メタデータ) (2024-09-12T14:42:08Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。