論文の概要: AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.11299v1
- Date: Fri, 14 Nov 2025 13:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.629344
- Title: AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models
- Title(参考訳): AUVIC:マルチモーダル大言語モデルのための視覚概念の逆アンラーニング
- Authors: Haokun Chen, Jianing Li, Yao Zhang, Jinhe Bi, Yan Xia, Jindong Gu, Volker Tresp,
- Abstract要約: を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
- 参考スコア(独自算出の注目度): 63.05306474002547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) achieve impressive performance once optimized on massive datasets. Such datasets often contain sensitive or copyrighted content, raising significant data privacy concerns. Regulatory frameworks mandating the 'right to be forgotten' drive the need for machine unlearning. This technique allows for the removal of target data without resource-consuming retraining. However, while well-studied for text, visual concept unlearning in MLLMs remains underexplored. A primary challenge is precisely removing a target visual concept without disrupting model performance on related entities. To address this, we introduce AUVIC, a novel visual concept unlearning framework for MLLMs. AUVIC applies adversarial perturbations to enable precise forgetting. This approach effectively isolates the target concept while avoiding unintended effects on similar entities. To evaluate our method, we construct VCUBench. It is the first benchmark designed to assess visual concept unlearning in group contexts. Experimental results demonstrate that AUVIC achieves state-of-the-art target forgetting rates while incurs minimal performance degradation on non-target concepts.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、大規模なデータセットに最適化された場合、優れたパフォーマンスを実現する。
このようなデータセットは、しばしば機密または著作権のあるコンテンツを含み、重要なデータのプライバシー上の懸念を引き起こす。
を強制する規制フレームワークは、機械学習の必要性を喚起します。
この技術は、リソースの無駄な再トレーニングなしにターゲットデータの除去を可能にする。
しかし、テキストではよく研究されているが、MLLMの視覚概念は未学習のままである。
主な課題は、関連するエンティティのモデルパフォーマンスを損なうことなく、ターゲットの視覚的概念を正確に除去することである。
そこで我々は,MLLMのための新しい視覚概念アンラーニングフレームワークであるAUVICを紹介する。
AUVICは、正確に忘れることを可能にするために敵の摂動を適用している。
このアプローチは、同じエンティティに対する意図しない影響を避けながら、ターゲット概念を効果的に分離する。
提案手法を評価するため,VCUBenchを構築した。
グループコンテキストにおける視覚概念の非学習を評価するために設計された最初のベンチマークである。
実験結果から,AUVICは非対象概念の最小性能劣化を招きながら,最先端の目標忘れ率を達成することが示された。
関連論文リスト
- SAUCE: Selective Concept Unlearning in Vision-Language Models with Sparse Autoencoders [16.551943721248108]
本稿では,視覚言語モデルにおいて,より微細で選択的な概念学習のための新しい手法であるSAUCEを紹介する。
まずSAEを訓練し、高次元、意味的に豊かなスパースの特徴を捉えます。
次に、未学習のターゲット概念に最も関連する機能を特定する。
推論中は、これらの特徴を選択的に修正し、関係のない情報を保存しながら特定の概念を抑圧する。
論文 参考訳(メタデータ) (2025-03-16T17:32:23Z) - PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models [27.338242898495448]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクにおいて顕著な成功を収めた。
膨大なインターネットソースデータへの依存は、プライバシーとセキュリティの重大な懸念を引き起こす。
マシン・アンラーニング(MU)はこれらの問題に対処するための重要な手法として登場した。
PEBenchはMLLMにおけるMUの徹底的な評価を容易にするために設計された新しいベンチマークである。
論文 参考訳(メタデータ) (2025-03-16T15:26:20Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。