論文の概要: Does Multimodal Large Language Model Truly Unlearn? Stealthy MLLM Unlearning Attack
- arxiv url: http://arxiv.org/abs/2506.17265v1
- Date: Tue, 10 Jun 2025 04:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.839986
- Title: Does Multimodal Large Language Model Truly Unlearn? Stealthy MLLM Unlearning Attack
- Title(参考訳): マルチモーダル大規模言語モデルは真に未学習か?
- Authors: Xianren Zhang, Hui Liu, Delvin Ce Zhang, Xianfeng Tang, Qi He, Dongwon Lee, Suhang Wang,
- Abstract要約: 大規模なデータに基づいてトレーニングされたマルチモーダル大規模言語モデル(MLLM)は、機密性の高い個人情報や写真を記憶し、深刻なプライバシーリスクを生じさせる可能性がある。
MLLMアンラーニング手法を提案する。
未学習LLMの未学習知識を回復することを目的としたLLMアンラーニング攻撃の新たな問題について検討する。
- 参考スコア(独自算出の注目度): 39.31635005360959
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) trained on massive data may memorize sensitive personal information and photos, posing serious privacy risks. To mitigate this, MLLM unlearning methods are proposed, which fine-tune MLLMs to reduce the ``forget'' sensitive information. However, it remains unclear whether the knowledge has been truly forgotten or just hidden in the model. Therefore, we propose to study a novel problem of LLM unlearning attack, which aims to recover the unlearned knowledge of an unlearned LLM. To achieve the goal, we propose a novel framework Stealthy Unlearning Attack (SUA) framework that learns a universal noise pattern. When applied to input images, this noise can trigger the model to reveal unlearned content. While pixel-level perturbations may be visually subtle, they can be detected in the semantic embedding space, making such attacks vulnerable to potential defenses. To improve stealthiness, we introduce an embedding alignment loss that minimizes the difference between the perturbed and denoised image embeddings, ensuring the attack is semantically unnoticeable. Experimental results show that SUA can effectively recover unlearned information from MLLMs. Furthermore, the learned noise generalizes well: a single perturbation trained on a subset of samples can reveal forgotten content in unseen images. This indicates that knowledge reappearance is not an occasional failure, but a consistent behavior.
- Abstract(参考訳): 大規模なデータに基づいてトレーニングされたマルチモーダル大規模言語モデル(MLLM)は、機密性の高い個人情報や写真を記憶し、深刻なプライバシーリスクを生じさせる可能性がある。
これを軽減するためにMLLMアンラーニング手法を提案する。
しかし、その知識が本当に忘れられたのか、単にモデルに隠されただけなのかは不明だ。
そこで本研究では,LLMの未学習知識を回復することを目的とした,LLMアンラーニング攻撃の新たな問題について検討する。
この目的を達成するために,汎用雑音パターンを学習する新しいフレームワークであるStealthy Unlearning Attack (SUA) を提案する。
入力画像に適用すると、このノイズがモデルにトリガーされ、未学習のコンテンツが明らかになる。
ピクセルレベルの摂動は視覚的に微妙であるが、セマンティックな埋め込み空間で検出できるため、そのような攻撃は潜在的な防御に脆弱である。
ステルス性を改善するために,摂動像と復号像との差を最小限に抑える埋め込みアライメント損失を導入し,攻撃が意味的に意味不明であることを確認した。
実験の結果,SUAはMLLMから未学習情報を効果的に回収できることがわかった。
さらに、学習されたノイズは良く一般化し、サンプルのサブセットで訓練された単一の摂動は、目に見えない画像の中で忘れられた内容を明らかにすることができる。
これは、知識の再出現は時折失敗ではなく、一貫した振る舞いであることを示している。
関連論文リスト
- Recalling The Forgotten Class Memberships: Unlearned Models Can Be Noisy Labelers to Leak Privacy [13.702759117522447]
マシン・アンラーニング(MU)攻撃に関する現在の限られた研究は、プライバシデータを含むオリジナルのモデルへのアクセスを必要とする。
本稿では,未学習モデルから忘れられたクラスメンバーシップを,オリジナルのモデルへのアクセスを必要とせずにリコールする革新的な研究を提案する。
本研究と評価により,MU脆弱性に関する今後の研究のベンチマークが確立された。
論文 参考訳(メタデータ) (2025-06-24T10:21:10Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks [85.84979847888157]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いことが知られている。
LLMは、学習期間中に明示的に導入されなかった有害な知識を暗黙的に引き起こすことができる。
我々は、この現象を実証的に検証し、未学習の手法でアタック成功率を下げることを可能にする。
論文 参考訳(メタデータ) (2024-07-03T07:14:05Z) - Unlearning or Obfuscating? Jogging the Memory of Unlearned LLMs via Benign Relearning [37.061187080745654]
LLMにおけるアンラーニングに対する既存のアプローチは、単純な$textitbenign再ラーニング攻撃の影響を受けやすいことを示す。
小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを'ジョグ'して、未学習の影響を逆転させることができることが分かりました。
論文 参考訳(メタデータ) (2024-06-19T09:03:21Z) - Offset Unlearning for Large Language Models [49.851093293780615]
delta-Unlearningは、ブラックボックスLLMのためのオフセットのアンラーニングフレームワークである。
デルタアンラーニングは、一般的な対物スコープタスクにおいて、類似またはより強い性能を維持しながら、効果的にターゲットデータを解放できることを示す。
論文 参考訳(メタデータ) (2024-04-17T03:39:51Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。