論文の概要: Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation
- arxiv url: http://arxiv.org/abs/2505.01456v1
- Date: Thu, 01 May 2025 01:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.125567
- Title: Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation
- Title(参考訳): マルチモーダルLLMにおける非学習感度情報:ベンチマークとアタックディフェンス評価
- Authors: Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal,
- Abstract要約: 我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
- 参考スコア(独自算出の注目度): 88.78166077081912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs trained on massive datasets may inadvertently acquire sensitive information such as personal details and potentially harmful content. This risk is further heightened in multimodal LLMs as they integrate information from multiple modalities (image and text). Adversaries can exploit this knowledge through multimodal prompts to extract sensitive details. Evaluating how effectively MLLMs can forget such information (targeted unlearning) necessitates the creation of high-quality, well-annotated image-text pairs. While prior work on unlearning has focused on text, multimodal unlearning remains underexplored. To address this gap, we first introduce a multimodal unlearning benchmark, UnLOK-VQA (Unlearning Outside Knowledge VQA), as well as an attack-and-defense framework to evaluate methods for deleting specific multimodal knowledge from MLLMs. We extend a visual question-answering dataset using an automated pipeline that generates varying-proximity samples for testing generalization and specificity, followed by manual filtering for maintaining high quality. We then evaluate six defense objectives against seven attacks (four whitebox, three blackbox), including a novel whitebox method leveraging interpretability of hidden states. Our results show multimodal attacks outperform text- or image-only ones, and that the most effective defense removes answer information from internal model states. Additionally, larger models exhibit greater post-editing robustness, suggesting that scale enhances safety. UnLOK-VQA provides a rigorous benchmark for advancing unlearning in MLLMs.
- Abstract(参考訳): 大量のデータセットでトレーニングされたLLMは、個人的な詳細や潜在的に有害なコンテンツなどの機密情報を不注意に取得する可能性がある。
このリスクは、複数のモダリティ(画像とテキスト)からの情報を統合することで、マルチモーダル LLM においてさらに高められる。
敵はこの知識を多モーダルなプロンプトを通じて利用し、繊細な詳細を抽出することができる。
MLLMがそのような情報(未学習のターゲット)をいかに効果的に忘れるかを評価するには、高品質でよく注釈付けされた画像テキストペアを作成する必要がある。
アンラーニングに関する以前の研究はテキストに重点を置いていたが、マルチモーダル・アンラーニングは未調査のままである。
このギャップに対処するために、まずマルチモーダルな未学習ベンチマークUnLOK-VQA(Unlearning Outside Knowledge VQA)と、特定のマルチモーダルな知識をMLLMから削除する手法を評価するためのアタック・アンド・ディフェンス・フレームワークを導入する。
我々は、一般化と特異性をテストするための様々な確率サンプルを生成する自動パイプラインを使用して、視覚的質問応答データセットを拡張し、次いで、高品質な手動フィルタリングにより、品質を維持する。
次に,隠蔽状態の解釈可能性を活用した新しいホワイトボックス手法を含む,7つの攻撃(4つのホワイトボックス,3つのブラックボックス)に対する6つの防御目標を評価する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
さらに、より大きなモデルでは、編集後の堅牢性が向上し、スケールが安全性を高めることが示唆されている。
UnLOK-VQAはMLLMでアンラーニングを進めるための厳格なベンチマークを提供する。
関連論文リスト
- Membership Inference Attacks Against Vision-Language Models [24.47069867575367]
VLM(Vision-Language Models)は、例外的なマルチモーダル理解とダイアログ機能を示す。
データ誤用や漏洩のリスクは、ほとんど解明されていない。
本研究では,背景知識の異なるレベルに合わせた4つのメンバーシップ推論手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T05:44:58Z) - Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models [0.0]
MLLM(Multi-Modal Language Models)は、視覚データとテキストデータを組み合わせた人工知能である。
攻撃者は視覚的またはテキスト的な入力を操作するか、あるいは両方を操作して、意図しないあるいは有害な応答をモデルに生成させる。
本稿では,MLLMの視覚的入力が様々な攻撃戦略によってどのように活用できるかを概説する。
論文 参考訳(メタデータ) (2024-11-07T16:21:18Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。