論文の概要: Visual-Guided Key-Token Regularization for Multimodal Large Language Model Unlearning
- arxiv url: http://arxiv.org/abs/2601.22020v1
- Date: Thu, 29 Jan 2026 17:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.041211
- Title: Visual-Guided Key-Token Regularization for Multimodal Large Language Model Unlearning
- Title(参考訳): マルチモーダル大言語モデルアンラーニングのためのビジュアルガイド付きキートークン正規化
- Authors: Chengyi Cai, Zesheng Ye, Peike Li, Bo Han, Jianzhong Qi, Feng Liu,
- Abstract要約: 視覚誘導型キートークン正規化(ViKeR)を提案する。
無関係な視覚入力を利用して、学習後の理想的なトークンレベルの分布を予測する。
本手法は,解答コヒーレンスを軽減・維持しつつ,非学習を効果的に行う。
- 参考スコア(独自算出の注目度): 39.211611292654176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlearning in Multimodal Large Language Models (MLLMs) prevents the model from revealing private information when queried about target images. Existing MLLM unlearning methods largely adopt approaches developed for LLMs. They treat all answer tokens uniformly, disregarding their varying importance in the unlearning process. Moreover, these methods focus exclusively on the language modality, disregarding visual cues that indicate key tokens in answers. In this paper, after formulating the problem of unlearning in multimodal question answering for MLLMs, we propose Visual-Guided Key-Token Regularization (ViKeR). We leverage irrelevant visual inputs to predict ideal post-unlearning token-level distributions and use these distributions to regularize the unlearning process, thereby prioritizing key tokens. Further, we define key tokens in unlearning via information entropy and discuss ViKeR's effectiveness through token-level gradient reweighting, which amplifies updates on key tokens. Experiments on MLLMU and CLEAR benchmarks demonstrate that our method effectively performs unlearning while mitigating forgetting and maintaining response coherence.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)におけるアンラーニングは、ターゲット画像について問い合わせたとき、モデルがプライベート情報を明らかにするのを防ぐ。
既存のMLLMアンラーニング手法は、LLM向けに開発されたアプローチを主に採用している。
彼らは全ての解答トークンを均一に扱い、学習しないプロセスにおけるそれらの様々な重要性を無視している。
さらに、これらの手法は、答えのキートークンを示す視覚的手がかりを無視して、言語モダリティにのみ焦点をあてる。
本稿では,MLLMに対するマルチモーダル質問応答におけるアンラーニングの問題を定式化した上で,ビジュアルガイドキー-Token正規化(ViKeR)を提案する。
無関係な視覚入力を利用して、学習後トークンレベルの理想的な分布を予測し、これらの分布を用いて学習プロセスの正規化を行い、キートークンの優先順位付けを行う。
さらに、情報エントロピーによるアンラーニングにおけるキートークンを定義し、キートークンの更新を増幅するトークンレベルの勾配再重み付けにより、ViKeRの有効性について議論する。
MLLMU と CLEAR のベンチマーク実験により,提案手法は効率よくアンラーニングを行なえるとともに,リフレッシュ・コヒーレンスを緩和し,レスポンス・コヒーレンスを維持できることを示した。
関連論文リスト
- Cross-Modal Attention Guided Unlearning in Vision-Language Models [16.460281156521646]
VLM(Vision-Language Models)は、マルチモーダル理解および推論タスクにおいて、膨大な能力を示す。
VLMは、クエリの視覚的コンテキストがテキストに加えてセンシティブな情報も含んでいる可能性があるため、このプロセスに複雑さの層を追加します。
我々は、軽量で効率的なVLMアンラーニングフレームワークであるCross-Modal Attentioned Unlearning(CAGUL)を定式化する。
論文 参考訳(メタデータ) (2025-10-08T21:21:59Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering [108.2131720470005]
大規模言語モデル(LLM)は、様々な現実世界のタスクで顕著なパフォーマンスを示している。
彼らはしばしば、入力コンテキストを完全に理解し、効果的に利用するのに苦労し、不信または幻覚的な反応をもたらす。
本稿では,重要な文脈情報を自動的に識別し,LLMの注意点を制御して強調する手法であるAutoPASTAを提案する。
論文 参考訳(メタデータ) (2024-09-16T23:52:41Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。
我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。
本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-06-17T19:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。