論文の概要: Feature-Selective Representation Misdirection for Machine Unlearning
- arxiv url: http://arxiv.org/abs/2512.16297v1
- Date: Thu, 18 Dec 2025 08:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.982578
- Title: Feature-Selective Representation Misdirection for Machine Unlearning
- Title(参考訳): 機械学習における特徴選択的表現ミスダイレクト
- Authors: Taozhao Chen, Linghan Huang, Kim-Kwang Raymond Choo, Huaming Chen,
- Abstract要約: マシンアンラーニングは、デプロイされたモデルが進化する法律、安全、ガバナンス要件に準拠することを確実にするのに役立つ。
現在の未学習のテクニックは、データセットの忘れと保持のクリーンな分離を前提としている。
本稿では,アクティベーション編集フレームワークSRMU(Selective Representation Misdirection for Unlearning)を提案する。
- 参考スコア(独自算出の注目度): 34.167873590478074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly adopted in safety-critical and regulated sectors, the retention of sensitive or prohibited knowledge introduces escalating risks, ranging from privacy leakage to regulatory non-compliance to to potential misuse, and so on. Recent studies suggest that machine unlearning can help ensure deployed models comply with evolving legal, safety, and governance requirements. However, current unlearning techniques assume clean separation between forget and retain datasets, which is challenging in operational settings characterized by highly entangled distributions. In such scenarios, perturbation-based methods often degrade general model utility or fail to ensure safety. To address this, we propose Selective Representation Misdirection for Unlearning (SRMU), a novel principled activation-editing framework that enforces feature-aware and directionally controlled perturbations. Unlike indiscriminate model weights perturbations, SRMU employs a structured misdirection vector with an activation importance map. The goal is to allow SRMU selectively suppresses harmful representations while preserving the utility on benign ones. Experiments are conducted on the widely used WMDP benchmark across low- and high-entanglement configurations. Empirical results reveal that SRMU delivers state-of-the-art unlearning performance with minimal utility losses, and remains effective under 20-30\% overlap where existing baselines collapse. SRMU provides a robust foundation for safety-driven model governance, privacy compliance, and controlled knowledge removal in the emerging LLM-based applications. We release the replication package at https://figshare.com/s/d5931192a8824de26aff.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全クリティカルで規制されたセクターでますます採用されているため、機密性や禁止された知識の保持は、プライバシーの漏洩から規制違反、潜在的な誤用に至るまで、リスクのエスカレーションをもたらす。
最近の研究は、機械学習が、展開されたモデルが進化する法律、安全、ガバナンス要件に準拠することを確実にするのに役立つことを示唆している。
しかし、現在のアンラーニング技術は、データセットを忘れたり保持したりすることの明確な分離を前提としており、高度に絡み合った分布を特徴とする運用環境では困難である。
このようなシナリオでは、摂動に基づく手法は一般的なモデルユーティリティを劣化させるか、安全性を確保するのに失敗することが多い。
そこで本稿では,特徴認識と方向制御による摂動を強制する,新たな活性化編集フレームワークであるSelective Representation Misdirection for Unlearning(SRMU)を提案する。
無差別モデル重み摂動とは異なり、SRMUはアクティベーション重要度マップを持つ構造的ミス指向ベクトルを用いる。
SRMUの目標は、有害な表現を選択的に抑制し、良性のある表現に対して有効性を維持することである。
広範に使われているWMDPベンチマークにおいて、低絡みと高絡みの2つの構成で実験を行った。
実証的な結果から、SRMUは最先端の未学習のパフォーマンスを最小限のユーティリティ損失で提供し、既存のベースラインが崩壊した場合の20~30倍のオーバーラップの下でも有効であることが明らかとなった。
SRMUは、新たなLLMベースのアプリケーションにおいて、安全駆動モデルガバナンス、プライバシコンプライアンス、および制御された知識除去のための堅牢な基盤を提供する。
レプリケーションパッケージはhttps://figshare.com/s/d5931192a8824de26affでリリースしています。
関連論文リスト
- FROC: A Unified Framework with Risk-Optimized Control for Machine Unlearning in LLMs [28.687949604557986]
大規模言語モデル(LLM)における機械学習のためのリスクd制御を用いた統合フレームワークFROCを提案する。
FROCは、非学習行動におけるユーザが特定したリスク予算を表現するコンフォメーションスタイルのリスクコントロールの定式化を中心に構築されている。
複数のLLM MU法による実験により、FROCは安定で解釈可能なリスクランドスケープを生成することが示された。
論文 参考訳(メタデータ) (2025-12-15T13:53:12Z) - EReLiFM: Evidential Reliability-Aware Residual Flow Meta-Learning for Open-Set Domain Generalization under Noisy Labels [85.78886153628663]
Open-Set Domain Generalizationは、ディープラーニングモデルが新しいドメインで目に見えないカテゴリを認識できるようにすることを目的としている。
ラベルノイズは、ソースドメインの知識を損なうことによって、オープンセットドメインの一般化を妨げる。
本稿では,ドメインギャップを埋めるために,Evidential Reliability-Aware Residual Flow Meta-Learning (EReLiFM)を提案する。
論文 参考訳(メタデータ) (2025-10-14T16:23:11Z) - OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning [19.823784666021822]
ACTORは、さまざまなクエリから内部アクティベーションパターンを活用することで、過剰な拒絶を最小化する。
ACTORは、リファインをトリガーするアクティベーションコンポーネントを正確に識別し、調整し、リファイン機構のより強力な制御を提供する。
論文 参考訳(メタデータ) (2025-07-06T05:47:04Z) - Invariance Makes LLM Unlearning Resilient Even to Unanticipated Downstream Fine-Tuning [46.170140576473365]
機械学習は、大規模言語モデル(LLM)におけるプライバシーと安全性の懸念に対する有望な解決策を提供する
不変リスク最小化(IRM)に触発されて、非学習に初めて不変を導入する。
我々は、頑健性を高める正規化ベースのフレームワークである不変LLMアンラーニング(ILU)を提案する。
論文 参考訳(メタデータ) (2025-06-02T05:38:43Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。