論文の概要: SineProject: Machine Unlearning for Stable Vision Language Alignment
- arxiv url: http://arxiv.org/abs/2511.18444v1
- Date: Sun, 23 Nov 2025 13:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.845369
- Title: SineProject: Machine Unlearning for Stable Vision Language Alignment
- Title(参考訳): SineProject: 安定的な視覚言語アライメントのための機械学習
- Authors: Arpit Garg, Hemanth Saratchandran, Simon Lucey,
- Abstract要約: MLLM(Multimodal Large Language Models)は、完全なリトレーニングを必要とせずに、特定の知識を忘れる必要がある。
既存の未学習の手法は、しばしば視覚言語のアライメントを妨害し、モデルが有害なクエリと良心的なクエリの両方を拒否する。
SineProjectは、凍結プロジェクターを正弦波変調したトレーニング可能なパラメータで拡張するシンプルな方法である。
- 参考スコア(独自算出の注目度): 30.391374552207008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) increasingly need to forget specific knowledge such as unsafe or private information without requiring full retraining. However, existing unlearning methods often disrupt vision language alignment, causing models to reject both harmful and benign queries. We trace this failure to the projector network during unlearning, its Jacobian becomes severely illconditioned, leading to unstable optimization and drift in cross modal embeddings. We introduce SineProject, a simple method that augments the frozen projector with sinusoidally modulated trainable parameters, improving the Jacobian's spectral conditioning and stabilizing alignment throughout unlearning. Across standard safety and privacy unlearning benchmarks using LLaVA v1.5 7B and 13B, SineProject reduces benign query refusals while achieving complete forgetting of targeted information, yielding state of the art forget retain trade offs with negligible computational overhead.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、完全なリトレーニングを必要とせずに、安全でない、あるいはプライベートな情報といった特定の知識を忘れる必要がある。
しかし、既存の未学習の手法はしばしば視覚言語のアライメントを阻害し、有害なクエリと良心的なクエリの両方をモデルが拒否する。
我々は、この失敗を未学習のプロジェクターネットワークに遡り、ヤコビアンは悪条件となり、不安定な最適化とクロスモーダル埋め込みのドリフトに繋がる。
SineProjectは,凍結プロジェクタに正弦波変調されたトレーニング可能なパラメータを付加し,ヤコビアンのスペクトル条件を改善し,未学習におけるアライメントを安定化する簡単な手法である。
LLaVA v1.5 7Bと13Bを使用した標準の安全性とプライバシのアンラーニングベンチマーク全体を通じて、SineProjectは、ターゲット情報の完全な忘れを達成しつつ、良質なクエリ拒否を低減し、無視可能な計算オーバーヘッドで最先端の忘れたままのトレードオフを維持する。
関連論文リスト
- AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-14T13:35:32Z) - Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - Rethinking Post-Unlearning Behavior of Large Vision-Language Models [17.951441278605966]
我々はLVLM(Large Vision-Language Models)のための新しいアンラーニングタスクを導入する。
このタスクでは、プライバシが保護されるが、情報的かつ視覚的に根拠づけられた応答を提供するモデルが必要である。
また,学習後の振る舞いを望ましい出力分布に導出する新しいアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:28:22Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Large Language Model Unlearning via Embedding-Corrupted Prompts [10.889859281637406]
大規模言語モデルのための軽量なアンラーニングフレームワークである textbfEmbedding-COrrupted (ECO) Prompts を提案する。
推論中に未学習の状態を識別し、忘れるプロンプトを保護するためにプロンプト分類器を用いて強制する。
その結果, 学習対象を満足させるだけでなく, 忘れることを意図したデータに基づいて訓練されたことのないモデルから得られる出力を, より正確に近似できることがわかった。
論文 参考訳(メタデータ) (2024-06-12T06:56:20Z) - Offset Unlearning for Large Language Models [49.851093293780615]
delta-Unlearningは、ブラックボックスLLMのためのオフセットのアンラーニングフレームワークである。
デルタアンラーニングは、一般的な対物スコープタスクにおいて、類似またはより強い性能を維持しながら、効果的にターゲットデータを解放できることを示す。
論文 参考訳(メタデータ) (2024-04-17T03:39:51Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。