論文の概要: MMUNLEARNER: Reformulating Multimodal Machine Unlearning in the Era of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11051v1
- Date: Sun, 16 Feb 2025 09:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:12.348329
- Title: MMUNLEARNER: Reformulating Multimodal Machine Unlearning in the Era of Multimodal Large Language Models
- Title(参考訳): MMUNLEARNER:マルチモーダル大規模言語モデルの時代におけるマルチモーダルマシンアンラーニングの改革
- Authors: Jiahao Huo, Yibo Yan, Xu Zheng, Yuanhuiyi Lyu, Xin Zou, Zhihua Wei, Xuming Hu,
- Abstract要約: MLLM(Multimodal Large Language Models)の時代におけるMultimodal Machine Unlearning(MU)の課題を再考する。
我々は,新しい幾何制約付き降下勾配法MMUnlearnerを開発した。
MLLMの重みを、未学習時の残りの概念とテキスト知識に制約された重み値マップで更新する。
- 参考スコア(独自算出の注目度): 19.36626553745877
- License:
- Abstract: Recent progress in Machine Unlearning (MU) has introduced solutions for the selective removal of private or sensitive information encoded within deep neural networks. Nonetheless, MU for Multimodal Large Language Models (MLLMs) remains in its nascent phase. Therefore, we propose to reformulate the task of multimodal MU in the era of MLLMs, which aims to erase only the visual patterns associated with a given entity while preserving the corresponding textual knowledge encoded within the original parameters of the language model backbone. Furthermore, we develop a novel geometry-constrained gradient descent method MMUnlearner. It updates the weights of MLLMs with a weight saliency map jointly restricted by the remaining concepts and textual knowledge during unlearning, thereby preserving parameters essential for non-target knowledge. Extensive experiments demonstrate that MMUnlearner surpasses baselines that finetuning MLLMs with VQA data directly through Gradient Ascent (GA) or Negative Preference Optimization (NPO), across all evaluation dimensions. Our code will be released upon acceptance.
- Abstract(参考訳): マシン・アンラーニング(MU)の最近の進歩は、ディープニューラルネットワーク内で符号化されたプライベートまたはセンシティブな情報を選択的に除去するソリューションを導入している。
それでも、Multimodal Large Language Models (MLLM) のMUは、その初期段階にある。
そこで本稿では,MLLM の時代におけるマルチモーダルMU のタスクを再構築し,言語モデルバックボーンの元のパラメータに符号化された対応するテキスト知識を保存しながら,与えられたエンティティに関連する視覚的パターンのみを消去することを目的とする。
さらに,新しい幾何制約付き勾配降下法MMUnlearnerを開発した。
MLLMの重みを、未学習時に残りの概念とテキスト知識に制約された重み値マップで更新し、非ターゲット知識に不可欠なパラメータを保存する。
広範囲な実験により、MMUnlearnerは、すべての評価次元において、GD(Gradient Ascent)またはNPO(Negative Preference Optimization)を介して、VQAデータでMLLMを微調整するベースラインを超えることが示されている。
私たちのコードは受け入れ次第解放されます。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization [17.20276556057748]
大規模言語モデル(LLM)は、トレーニングセットの冗長性からいくつかのテキストシーケンスを暗記し、引用することが発見されている。
このTSM(Textual Sequence Memorization)現象は、特定の記憶されたテキストを生成するのを防ぐために、LCM出力の調整を要求される。
TSM消去のための既存の方法は、モデルユーティリティを実質的に損なうことなく、大量の記憶されたサンプルを忘れることができない。
論文 参考訳(メタデータ) (2024-08-09T10:26:11Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。
VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。
我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models [13.08771725554285]
本稿では,概念の視覚的認識を数ステップで微調整することで,概念の視覚的認識を解き放つための効率的な手法であるSingle Image Unlearning(SIU)を提案する。
MMUBench の実験結果から,SIU は既存手法の性能を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-21T06:27:12Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models [19.213774611556]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
本研究では,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。