論文の概要: MeGU: Machine-Guided Unlearning with Target Feature Disentanglement
- arxiv url: http://arxiv.org/abs/2602.17088v1
- Date: Thu, 19 Feb 2026 05:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.706105
- Title: MeGU: Machine-Guided Unlearning with Target Feature Disentanglement
- Title(参考訳): MeGU: ターゲットの特徴を絞った機械学習
- Authors: Haoyu Wang, Zhuo Huang, Xiaolong Wang, Bo Han, Zhiwei Lin, Tongliang Liu,
- Abstract要約: 本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。
MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
- 参考スコア(独自算出の注目度): 73.49657372882082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing concern over training data privacy has elevated the "Right to be Forgotten" into a critical requirement, thereby raising the demand for effective Machine Unlearning. However, existing unlearning approaches commonly suffer from a fundamental trade-off: aggressively erasing the influence of target data often degrades model utility on retained data, while conservative strategies leave residual target information intact. In this work, the intrinsic representation properties learned during model pretraining are analyzed. It is demonstrated that semantic class concepts are entangled at the feature-pattern level, sharing associated features while preserving concept-specific discriminative components. This entanglement fundamentally limits the effectiveness of existing unlearning paradigms. Motivated by this insight, we propose Machine-Guided Unlearning (MeGU), a novel framework that guides unlearning through concept-aware re-alignment. Specifically, Multi-modal Large Language Models (MLLMs) are leveraged to explicitly determine re-alignment directions for target samples by assigning semantically meaningful perturbing labels. To improve efficiency, inter-class conceptual similarities estimated by the MLLM are encoded into a lightweight transition matrix. Furthermore, MeGU introduces a positive-negative feature noise pair to explicitly disentangle target concept influence. During finetuning, the negative noise suppresses target-specific feature patterns, while the positive noise reinforces remaining associated features and aligns them with perturbing concepts. This coordinated design enables selective disruption of target-specific representations while preserving shared semantic structures. As a result, MeGU enables controlled and selective forgetting, effectively mitigating both under-unlearning and over-unlearning.
- Abstract(参考訳): データプライバシのトレーニングに関する懸念が高まり,“忘れられる権利(Right to be Forgotten)”が重要な要件に昇格したことにより,効果的な機械学習の必要性が高まっている。
しかし、既存の未学習のアプローチは基本的に基本的なトレードオフに悩まされる: ターゲットデータの影響を積極的に消去することは、モデルユーティリティを保持データに劣化させるが、保守的な戦略は残留ターゲット情報をそのまま残す。
本研究では,モデル事前学習中に学習した固有表現特性を解析した。
セマンティッククラスの概念が特徴パターンのレベルで絡み合っていて、概念固有の識別的コンポーネントを保持しながら関連する特徴を共有することが実証された。
この絡み合いは、既存の未学習パラダイムの有効性を根本的に制限する。
この知見に触発されて、概念意識の再調整を通じて学習をガイドする新しいフレームワークであるMachine-Guided Unlearning (MeGU)を提案する。
具体的には、MLLM(Multi-modal Large Language Models)を利用して、意味論的に意味のある摂動ラベルを割り当てることで、ターゲットサンプルの再配置方向を明示的に決定する。
MLLMによって推定されるクラス間の概念的類似性を軽量な遷移行列に符号化する。
さらに、MeGUは、ターゲット概念の影響を明示的にアンタングルする正負の特徴雑音ペアを導入している。
微調整中、負のノイズはターゲット固有の特徴パターンを抑圧し、正のノイズは残りの特徴を補強し、摂動の概念と整合させる。
この協調設計は、共有セマンティック構造を保持しながら、ターゲット固有の表現を選択的に破壊することを可能にする。
その結果、MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
関連論文リスト
- Beyond Memorization: Gradient Projection Enables Selective Learning in Diffusion Models [3.4064487905075294]
大規模テキスト・画像拡散モデルの記憶化は、セキュリティと知的財産権の重大なリスクをもたらす。
概念レベルの機能排除の厳格な要件を強制するために設計されたグラディエント・プロジェクション・フレームワークを導入する。
我々のアプローチは、IPセーフでプライバシ保護された生成AIのための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-12-12T00:50:38Z) - AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-14T13:35:32Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Source-Free Domain Adaptive Object Detection with Semantics Compensation [54.00183496587841]
Weak-to-strong Semantics Compensation (WSCo)を導入する。
WSCoは、クラス関連セマンティクスを補う。
WSCoは一般的なプラグインとして実装することができ、既存のSFODパイプラインと容易に統合できます。
論文 参考訳(メタデータ) (2024-10-07T23:32:06Z) - Erasing Conceptual Knowledge from Language Models [24.63143961814566]
概念レベルのアンラーニングに対する原則的アプローチである言語記憶の消去(ELM)を導入する。
ELMは、モデル自身の内省的分類能力によって定義される分布を一致させることで機能する。
ELMのバイオセキュリティ、サイバーセキュリティ、および文学ドメイン消去タスクに対する効果を実証する。
論文 参考訳(メタデータ) (2024-10-03T17:59:30Z) - Decoupling the Class Label and the Target Concept in Machine Unlearning [81.69857244976123]
機械学習の目的は、トレーニングデータの一部を除外した再トレーニングされたモデルを近似するために、トレーニングされたモデルを調整することだ。
過去の研究では、クラスワイド・アンラーニングが対象クラスの知識を忘れることに成功していることが示された。
我々は、TARget-aware Forgetting (TARF) という一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T14:53:30Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。