論文の概要: HV-Attack: Hierarchical Visual Attack for Multimodal Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2511.15435v1
- Date: Wed, 19 Nov 2025 13:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.826302
- Title: HV-Attack: Hierarchical Visual Attack for Multimodal Retrieval Augmented Generation
- Title(参考訳): HV-Attack:マルチモーダル検索生成のための階層型ビジュアルアタック
- Authors: Linyin Luo, Yujuan Ding, Yunshan Ma, Wenqi Fan, Hanjiang Lai,
- Abstract要約: 大規模マルチモーダルモデル(LMM)の能力を高めるために,MRAG(Multimodal Retrieval-Augmented Generation)技術が広く応用されている。
既存の敵の研究では、MRAGシステムの脆弱性が毒殺攻撃を知ろうとしていることが明らかになっている。
本稿では,ユーザの画像入力に知覚不能な摂動を加えることでMRAGの視覚的攻撃を提案する。
- 参考スコア(独自算出の注目度): 30.52562642784609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced multimodal Retrieval-Augmented Generation (MRAG) techniques have been widely applied to enhance the capabilities of Large Multimodal Models (LMMs), but they also bring along novel safety issues. Existing adversarial research has revealed the vulnerability of MRAG systems to knowledge poisoning attacks, which fool the retriever into recalling injected poisoned contents. However, our work considers a different setting: visual attack of MRAG by solely adding imperceptible perturbations at the image inputs of users, without manipulating any other components. This is challenging due to the robustness of fine-tuned retrievers and large-scale generators, and the effect of visual perturbation may be further weakened by propagation through the RAG chain. We propose a novel Hierarchical Visual Attack that misaligns and disrupts the two inputs (the multimodal query and the augmented knowledge) of MRAG's generator to confuse its generation. We further design a hierarchical two-stage strategy to obtain misaligned augmented knowledge. We disrupt the image input of the retriever to make it recall irrelevant knowledge from the original database, by optimizing the perturbation which first breaks the cross-modal alignment and then disrupts the multimodal semantic alignment. We conduct extensive experiments on two widely-used MRAG datasets: OK-VQA and InfoSeek. We use CLIP-based retrievers and two LMMs BLIP-2 and LLaVA as generators. Results demonstrate the effectiveness of our visual attack on MRAG through the significant decrease in both retrieval and generation performance.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の能力向上にMRAG(Advanced Multimodal Retrieval-Augmented Generation)技術が広く応用されているが、新しい安全性の問題も伴っている。
既存の敵の研究では、MRAGシステムの脆弱性が毒殺攻撃を知ろうとしていることが判明した。
MRAGの視覚的攻撃は、他のコンポーネントを操作することなく、ユーザーの画像入力に知覚不能な摂動を加えるだけで行う。
このことは、微調整されたレトリバーと大規模発電機の堅牢性により困難であり、RAG鎖の伝播により視覚摂動の影響はさらに弱まる可能性がある。
本稿では,MRAGジェネレータの2つの入力(マルチモーダルクエリと拡張知識)を誤用して妨害し,その生成を混乱させる階層的視覚攻撃を提案する。
さらに、階層的な2段階戦略を設計し、不整合な拡張知識を得る。
我々は、まず、横断的なアライメントを壊し、次にマルチモーダルなセマンティックアライメントを乱す摂動を最適化することにより、レトリバーのイメージ入力を破壊し、元のデータベースから無関係な知識を思い出させる。
我々は、広く使われている2つのMRAGデータセット、OK-VQAとInfoSeekについて広範な実験を行った。
CLIPベースのレトリバーと2つのLMMBLIP-2とLLaVAをジェネレータとして使用する。
その結果, MRAGに対する視覚的攻撃の有効性は, 検索性能と生成性能の両面で有意な低下がみられた。
関連論文リスト
- Enhancing Retrieval Augmentation via Adversarial Collaboration [50.117273835877334]
我々は「検索幻覚」に対処するため、Adrial Collaboration RAG(AC-RAG)フレームワークを提案する。
AC-RAGは、知識ギャップを識別するジェネリスト検出器と、正確な解決策を提供するドメイン特化リゾルバという2つの異種エージェントを使用している。
実験により、AC-RAGは検索精度を大幅に向上し、様々な垂直領域における最先端RAG法より優れていることが示された。
論文 参考訳(メタデータ) (2025-09-18T08:54:20Z) - MrM: Black-Box Membership Inference Attacks against Multimodal RAG Systems [31.53306157650065]
マルチモーダル検索拡張生成(RAG)システムは、クロスモーダル知識を統合することで、大きな視覚言語モデルを強化する。
これらの知識データベースには、プライバシー保護を必要とする機密情報が含まれている可能性がある。
MrMはマルチモーダルRAGシステムを対象とした最初のブラックボックスMIAフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T03:48:50Z) - Joint-GCG: Unified Gradient-Based Poisoning Attacks on Retrieval-Augmented Generation Systems [11.300387488829035]
Retrieval-Augmented Generation (RAG) システムは、応答を生成する前に、外部コーパスから関連文書を取得することで、Large Language Models (LLM) を強化する。
既存の毒殺攻撃戦略は、検索と生成段階を非結合として扱い、その効果を制限している。
Joint-GCGは、レトリバーモデルとジェネレータモデルの両方にわたる勾配ベースの攻撃を統合する最初のフレームワークである。
論文 参考訳(メタデータ) (2025-06-06T15:12:06Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。
この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。
マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Retrievals Can Be Detrimental: A Contrastive Backdoor Attack Paradigm on Retrieval-Augmented Diffusion Models [37.66349948811172]
拡散モデル (DM) は近年, 顕著な生成能力を示した。
近年の研究では、高度な検索・拡張生成(RAG)技術によってDMが強化されている。
RAGは、モデルパラメータを著しく低減しつつ、DMの生成と一般化能力を向上させる。
大きな成功にもかかわらず、RAGはさらなる調査を保証できる新しいセキュリティ問題を導入するかもしれない。
論文 参考訳(メタデータ) (2025-01-23T02:42:28Z) - Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。