論文の概要: SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning
- arxiv url: http://arxiv.org/abs/2502.12520v2
- Date: Tue, 25 Feb 2025 04:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:18:25.169770
- Title: SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning
- Title(参考訳): SafeEraser:マルチモーダル・マシン・アンラーニングによるマルチモーダル大規模言語モデルの安全性向上
- Authors: Junkai Chen, Zhijie Deng, Kening Zheng, Yibo Yan, Shuliang Liu, PeiJun Wu, Peijie Jiang, Jia Liu, Xuming Hu,
- Abstract要約: MLLM(Multimodal Large Language Models)のための安全アンラーニングベンチマークであるSAFEERASERを提案する。
我々は2つの観点から非学習手法を総合的に評価する。
実験により、PD損失と既存の未学習手法を組み合わせることで、過剰な鍛造を効果的に防止できることが示された。
- 参考スコア(独自算出の注目度): 19.9759585536617
- License:
- Abstract: As Multimodal Large Language Models (MLLMs) develop, their potential security issues have become increasingly prominent. Machine Unlearning (MU), as an effective strategy for forgetting specific knowledge in training data, has been widely used in privacy protection. However, MU for safety in MLLM has yet to be fully explored. To address this issue, we propose SAFEERASER, a safety unlearning benchmark for MLLMs, consisting of 3,000 images and 28.8K VQA pairs. We comprehensively evaluate unlearning methods from two perspectives: forget quality and model utility. Our findings show that existing MU methods struggle to maintain model performance while implementing the forget operation and often suffer from over-forgetting. Hence, we introduce Prompt Decouple (PD) Loss to alleviate over-forgetting through decouple prompt during unlearning process. To quantitatively measure over-forgetting mitigated by PD Loss, we propose a new metric called Safe Answer Refusal Rate (SARR). Experimental results demonstrate that combining PD Loss with existing unlearning methods can effectively prevent over-forgetting and achieve a decrease of 79.5% in the SARR metric of LLaVA-7B and LLaVA-13B, while maintaining forget quality and model utility. Our code and dataset will be released upon acceptance. Warning: This paper contains examples of harmful language and images, and reader discretion is recommended.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)が発展するにつれて、その潜在的なセキュリティ問題はますます顕著になっている。
トレーニングデータの特定の知識を忘れるための効果的な戦略である機械学習(MU)は、プライバシ保護に広く利用されている。
しかし、MLLMの安全性のためのMUはまだ完全には研究されていない。
この問題に対処するために,3000の画像と28.8KのVQAペアからなるMLLMの安全アンラーニングベンチマークであるSAFEERASERを提案する。
我々は2つの観点から非学習手法を総合的に評価する。
本研究は,既存のMU手法がモデル性能の維持に苦慮していることを示すものである。
そこで我々は,非学習過程における非学習的プロンプトによる過剰な鍛造を緩和するために,Prompt Decouple (PD) Lossを導入する。
PDロスによる過剰な鍛造を定量的に測定するために,安全解答率(SARR)と呼ばれる新しい指標を提案する。
LLaVA-7BとLLaVA-13BのSARR測定値において, PD損失と既存の未学習手法を組み合わせることで, 過剰な鍛造を効果的に防止し, 79.5%の低下を達成できることを示した。
私たちのコードとデータセットは受け入れ次第リリースされます。
警告: 本論文は有害な言語や画像の例を含み, 読者の判断を推奨する。
関連論文リスト
- Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。
本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。
私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T13:12:13Z) - MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts [29.593170782882563]
大きな言語モデル(LLM)は機密情報を記憶し、潜在的な誤用に対する懸念を引き起こす。
以前のプラクティスでは、実用性、効率性、堅牢性という3つの大きな課題に直面しています。
勾配降下に基づくアンラーニング手法であるMEOWを提案する。
論文 参考訳(メタデータ) (2024-09-18T09:55:48Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models [13.08771725554285]
本稿では,概念の視覚的認識を数ステップで微調整することで,概念の視覚的認識を解き放つための効率的な手法であるSingle Image Unlearning(SIU)を提案する。
MMUBench の実験結果から,SIU は既存手法の性能を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-21T06:27:12Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。