論文の概要: MrM: Black-Box Membership Inference Attacks against Multimodal RAG Systems
- arxiv url: http://arxiv.org/abs/2506.07399v1
- Date: Mon, 09 Jun 2025 03:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.797476
- Title: MrM: Black-Box Membership Inference Attacks against Multimodal RAG Systems
- Title(参考訳): MM:マルチモーダルRAGシステムに対するブラックボックスメンバーシップ推論攻撃
- Authors: Peiru Yang, Jinhua Yin, Haoran Zheng, Xueying Bai, Huili Wang, Yufei Sun, Xintian Li, Shangguang Wang, Yongfeng Huang, Tao Qi,
- Abstract要約: マルチモーダル検索拡張生成(RAG)システムは、クロスモーダル知識を統合することで、大きな視覚言語モデルを強化する。
これらの知識データベースには、プライバシー保護を必要とする機密情報が含まれている可能性がある。
MrMはマルチモーダルRAGシステムを対象とした最初のブラックボックスMIAフレームワークである。
- 参考スコア(独自算出の注目度): 31.53306157650065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal retrieval-augmented generation (RAG) systems enhance large vision-language models by integrating cross-modal knowledge, enabling their increasing adoption across real-world multimodal tasks. These knowledge databases may contain sensitive information that requires privacy protection. However, multimodal RAG systems inherently grant external users indirect access to such data, making them potentially vulnerable to privacy attacks, particularly membership inference attacks (MIAs). % Existing MIA methods targeting RAG systems predominantly focus on the textual modality, while the visual modality remains relatively underexplored. To bridge this gap, we propose MrM, the first black-box MIA framework targeted at multimodal RAG systems. It utilizes a multi-object data perturbation framework constrained by counterfactual attacks, which can concurrently induce the RAG systems to retrieve the target data and generate information that leaks the membership information. Our method first employs an object-aware data perturbation method to constrain the perturbation to key semantics and ensure successful retrieval. Building on this, we design a counterfact-informed mask selection strategy to prioritize the most informative masked regions, aiming to eliminate the interference of model self-knowledge and amplify attack efficacy. Finally, we perform statistical membership inference by modeling query trials to extract features that reflect the reconstruction of masked semantics from response patterns. Experiments on two visual datasets and eight mainstream commercial visual-language models (e.g., GPT-4o, Gemini-2) demonstrate that MrM achieves consistently strong performance across both sample-level and set-level evaluations, and remains robust under adaptive defenses.
- Abstract(参考訳): マルチモーダル検索拡張生成システム(RAG)は、クロスモーダル知識を統合することで、大規模な視覚言語モデルを強化し、実世界のマルチモーダルタスクにまたがる採用を拡大する。
これらの知識データベースには、プライバシー保護を必要とする機密情報が含まれている可能性がある。
しかし、マルチモーダルRAGシステムは本質的に外部ユーザーがそのようなデータに間接的にアクセスすることを許しており、プライバシー攻撃、特にMIA攻撃に弱い可能性がある。
% 既存のMIA手法はテキストのモダリティに主に焦点を合わせ, 視覚的モダリティは比較的過小評価されている。
このギャップを埋めるため,マルチモーダルRAGシステムを対象とした最初のブラックボックスMIAフレームワークであるMrMを提案する。
反ファクト攻撃によって制約された多目的データ摂動フレームワークを使用し、RAGシステムを同時に誘導してターゲットデータを取得し、会員情報を漏洩する情報を生成する。
提案手法は,まずオブジェクト認識データ摂動法を用いて,摂動をキーセマンティクスに制約し,検索を成功させる。
そこで我々は,自己認識モデルの干渉を排除し,攻撃効果を高めることを目的として,最も情報性の高いマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマス選択戦略を設計した。
最後に,応答パターンからマスク付き意味論の再構成を反映した特徴を抽出するために,クエリ試行をモデル化して統計的メンバーシップ推定を行う。
2つのビジュアルデータセットと8つの主要な商用ビジュアル言語モデル(例えば、GPT-4o、Gemini-2)の実験により、MrMはサンプルレベルとセットレベルの両方で一貫して強い性能を達成でき、適応防御下でも頑健であることが示された。
関連論文リスト
- mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation [5.647319807077936]
LVLM(Large Vision-Language Models)は、視覚的質問応答、視覚的接地、複雑な推論といったマルチモーダルなタスクにおいて顕著な進歩を遂げている。
Retrieval-Augmented Generation (RAG)は、LVLMが検索機構を介して大規模知識データベースにアクセスできるようにすることにより、これらの課題を軽減するための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-29T23:32:03Z) - Beyond Text: Unveiling Privacy Vulnerabilities in Multi-modal Retrieval-Augmented Generation [17.859942323017133]
MRAGのプライバシーの脆弱性を視覚言語と音声言語にまたがって初めて体系的に分析する。
実験の結果,LMMは検索した内容に類似した出力を直接生成し,センシティブな情報を間接的に公開する記述を生成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-20T05:37:22Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。
2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。
本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-30T19:46:36Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。