論文の概要: Watch, Listen, Understand, Mislead: Tri-modal Adversarial Attacks on Short Videos for Content Appropriateness Evaluation
- arxiv url: http://arxiv.org/abs/2507.11968v1
- Date: Wed, 16 Jul 2025 07:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.26536
- Title: Watch, Listen, Understand, Mislead: Tri-modal Adversarial Attacks on Short Videos for Content Appropriateness Evaluation
- Title(参考訳): Watch, Listen, Understand, Mislead: コンテンツ適性評価のためのショートビデオにおけるトリモーダル・アドベラル・アタック
- Authors: Sahid Hossain Mustakim, S M Jishanul Islam, Ummay Maria Muna, Montasir Chowdhury, Mohammed Jawwadul Islam, Sadia Ahmmed, Tashfia Sikder, Syed Tasdid Azam Dhrubo, Swakkhar Shatabda,
- Abstract要約: 本稿では,マルチモーダル大言語モデル(MLLM)の3次元安全性を評価するためのフレームワークを提案する。
本稿では,ヒト誘導型合成対向攻撃を用いたショートビデオ・マルチモーダル対向データセットを提案する。
最先端MLLMの大規模な実験により、攻撃成功率(ASR)の高い重大な脆弱性が明らかになった。
- 参考スコア(独自算出の注目度): 1.0012740151280692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are increasingly used for content moderation, yet their robustness in short-form video contexts remains underexplored. Current safety evaluations often rely on unimodal attacks, failing to address combined attack vulnerabilities. In this paper, we introduce a comprehensive framework for evaluating the tri-modal safety of MLLMs. First, we present the Short-Video Multimodal Adversarial (SVMA) dataset, comprising diverse short-form videos with human-guided synthetic adversarial attacks. Second, we propose ChimeraBreak, a novel tri-modal attack strategy that simultaneously challenges visual, auditory, and semantic reasoning pathways. Extensive experiments on state-of-the-art MLLMs reveal significant vulnerabilities with high Attack Success Rates (ASR). Our findings uncover distinct failure modes, showing model biases toward misclassifying benign or policy-violating content. We assess results using LLM-as-a-judge, demonstrating attack reasoning efficacy. Our dataset and findings provide crucial insights for developing more robust and safe MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、コンテンツモデレーションに使用されることが多いが、短い形式のビデオコンテキストにおける頑健さはいまだに解明されていない。
現在の安全性評価は、しばしば一斉攻撃に依存し、同時攻撃の脆弱性に対処できない。
本稿では,MLLMのトリモーダル安全性を評価するための包括的枠組みを提案する。
まず,ヒト誘導型合成逆数攻撃を用いたショートビデオ・マルチモーダル・アドバイザリ(SVMA)データセットについて述べる。
第2に,視覚的,聴覚的,意味的推論の経路に同時に挑戦する新しい3モーダル攻撃戦略であるChimeraBreakを提案する。
最先端のMLLMに関する大規模な実験では、アタック成功率(ASR)の高い重大な脆弱性が明らかになった。
以上の結果から,誤分類やポリシー違反のコンテンツに対するモデルバイアスがみられた。
LLM-as-a-judgeを用いて攻撃推論の有効性を示す。
我々のデータセットと発見は、より堅牢で安全なMLLMを開発する上で重要な洞察を提供する。
関連論文リスト
- AI vs. Human Moderators: A Comparative Evaluation of Multimodal LLMs in Content Moderation for Brand Safety [2.9165586612027234]
ブランド安全分類におけるMLLM(Multimodal Large Language Models)の能力をベンチマークする。
Gemini, GPT, LlamaなどのMLLMのマルチモーダルブランド安全性における有効性を示す。
本稿では,MLLMの限界と障害事例について,詳細な議論を行う。
論文 参考訳(メタデータ) (2025-08-07T15:55:46Z) - Investigating Vulnerabilities and Defenses Against Audio-Visual Attacks: A Comprehensive Survey Emphasizing Multimodal Models [25.23931196918614]
マルチモーダル・大規模言語モデル(MLLM)は、音声・視覚処理と自然言語処理のギャップを埋める。
MLLMの優れた性能にもかかわらず、高品質なオーディオ視覚訓練データと計算資源の不足は、サードパーティのデータとオープンソースのMLLMの利用を必要とする。
実証的研究は、最新のMLLMを操作して悪意のある、または有害なコンテンツを生成できることを実証している。
論文 参考訳(メタデータ) (2025-06-13T07:22:36Z) - Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs [51.90597846977058]
Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。
ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。
安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
論文 参考訳(メタデータ) (2025-05-17T05:06:38Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Survey of Adversarial Robustness in Multimodal Large Language Models [17.926240920647892]
MLLM(Multimodal Large Language Models)は、人工知能において例外的な性能を示す。
現実世界のアプリケーションへのデプロイは、敵の脆弱性に対する重大な懸念を引き起こす。
本稿では,MLLMの対角的ロバスト性について述べる。
論文 参考訳(メタデータ) (2025-03-18T06:54:59Z) - `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [33.49407213040455]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z) - Image-based Multimodal Models as Intruders: Transferable Multimodal Attacks on Video-based MLLMs [48.76864299749205]
ビデオベースの大規模言語モデル(V-MLLM)は、ビデオテキストマルチモーダルタスクにおける逆例の脆弱性を示す。
本稿では,V-MLLM間の対向映像の転送可能性について検討する。
論文 参考訳(メタデータ) (2025-01-02T03:52:22Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。
我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。
我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文 参考訳(メタデータ) (2024-03-20T11:05:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。