論文の概要: Feature-Selective Representation Misdirection for Machine Unlearning
- arxiv url: http://arxiv.org/abs/2512.16297v1
- Date: Thu, 18 Dec 2025 08:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.982578
- Title: Feature-Selective Representation Misdirection for Machine Unlearning
- Title(参考訳): 機械学習における特徴選択的表現ミスダイレクト
- Authors: Taozhao Chen, Linghan Huang, Kim-Kwang Raymond Choo, Huaming Chen,
- Abstract要約: マシンアンラーニングは、デプロイされたモデルが進化する法律、安全、ガバナンス要件に準拠することを確実にするのに役立つ。
現在の未学習のテクニックは、データセットの忘れと保持のクリーンな分離を前提としている。
本稿では,アクティベーション編集フレームワークSRMU(Selective Representation Misdirection for Unlearning)を提案する。
- 参考スコア(独自算出の注目度): 34.167873590478074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly adopted in safety-critical and regulated sectors, the retention of sensitive or prohibited knowledge introduces escalating risks, ranging from privacy leakage to regulatory non-compliance to to potential misuse, and so on. Recent studies suggest that machine unlearning can help ensure deployed models comply with evolving legal, safety, and governance requirements. However, current unlearning techniques assume clean separation between forget and retain datasets, which is challenging in operational settings characterized by highly entangled distributions. In such scenarios, perturbation-based methods often degrade general model utility or fail to ensure safety. To address this, we propose Selective Representation Misdirection for Unlearning (SRMU), a novel principled activation-editing framework that enforces feature-aware and directionally controlled perturbations. Unlike indiscriminate model weights perturbations, SRMU employs a structured misdirection vector with an activation importance map. The goal is to allow SRMU selectively suppresses harmful representations while preserving the utility on benign ones. Experiments are conducted on the widely used WMDP benchmark across low- and high-entanglement configurations. Empirical results reveal that SRMU delivers state-of-the-art unlearning performance with minimal utility losses, and remains effective under 20-30\% overlap where existing baselines collapse. SRMU provides a robust foundation for safety-driven model governance, privacy compliance, and controlled knowledge removal in the emerging LLM-based applications. We release the replication package at https://figshare.com/s/d5931192a8824de26aff.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全クリティカルで規制されたセクターでますます採用されているため、機密性や禁止された知識の保持は、プライバシーの漏洩から規制違反、潜在的な誤用に至るまで、リスクのエスカレーションをもたらす。
最近の研究は、機械学習が、展開されたモデルが進化する法律、安全、ガバナンス要件に準拠することを確実にするのに役立つことを示唆している。
しかし、現在のアンラーニング技術は、データセットを忘れたり保持したりすることの明確な分離を前提としており、高度に絡み合った分布を特徴とする運用環境では困難である。
このようなシナリオでは、摂動に基づく手法は一般的なモデルユーティリティを劣化させるか、安全性を確保するのに失敗することが多い。
そこで本稿では,特徴認識と方向制御による摂動を強制する,新たな活性化編集フレームワークであるSelective Representation Misdirection for Unlearning(SRMU)を提案する。
無差別モデル重み摂動とは異なり、SRMUはアクティベーション重要度マップを持つ構造的ミス指向ベクトルを用いる。
SRMUの目標は、有害な表現を選択的に抑制し、良性のある表現に対して有効性を維持することである。
広範に使われているWMDPベンチマークにおいて、低絡みと高絡みの2つの構成で実験を行った。
実証的な結果から、SRMUは最先端の未学習のパフォーマンスを最小限のユーティリティ損失で提供し、既存のベースラインが崩壊した場合の20~30倍のオーバーラップの下でも有効であることが明らかとなった。
SRMUは、新たなLLMベースのアプリケーションにおいて、安全駆動モデルガバナンス、プライバシコンプライアンス、および制御された知識除去のための堅牢な基盤を提供する。
レプリケーションパッケージはhttps://figshare.com/s/d5931192a8824de26affでリリースしています。
関連論文リスト
- U-CAN: Utility-Aware Contrastive Attenuation for Efficient Unlearning in Generative Recommendation [9.680511155102623]
本稿では,低ランクアダプタで動作する高精度アンラーニングフレームワークであるContrastive AttenuatioN(U-CAN)を提案する。
U-CANは、アクティベーションの対比によってリスクを定量化し、非対称な応答を持つニューロンに焦点をあてる。
ネットワーク構造を断片化する二分法プルーニングとは異なり、U-CANは微分可能な減衰関数を持つ適応性軟減衰を発達させる。
論文 参考訳(メタデータ) (2026-02-26T07:36:11Z) - MeGU: Machine-Guided Unlearning with Target Feature Disentanglement [73.49657372882082]
本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。
MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
論文 参考訳(メタデータ) (2026-02-19T05:20:31Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Mitigating Safety Tax via Distribution-Grounded Refinement in Large Reasoning Models [63.368505631152594]
安全調整は、大きな推論モデル(LRM)の一般的な推論能力を乱す安全税を発生させる。
LRMの安全アライメントに使われる既存のデータセットは、通常、外部のLRMまたは人間のラベルから安全推論の痕跡と回答を蒸留することによって構築される。
本稿では,DGRと呼ばれる安全アライメントデータセット構築手法を提案する。DGRは,既存のアウト・オブ・ディストリビューション型安全推論データセットを改良し,目標のLLM内部分布に適合させる。
論文 参考訳(メタデータ) (2026-02-02T14:18:48Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - FROC: A Unified Framework with Risk-Optimized Control for Machine Unlearning in LLMs [28.687949604557986]
大規模言語モデル(LLM)における機械学習のためのリスクd制御を用いた統合フレームワークFROCを提案する。
FROCは、非学習行動におけるユーザが特定したリスク予算を表現するコンフォメーションスタイルのリスクコントロールの定式化を中心に構築されている。
複数のLLM MU法による実験により、FROCは安定で解釈可能なリスクランドスケープを生成することが示された。
論文 参考訳(メタデータ) (2025-12-15T13:53:12Z) - EReLiFM: Evidential Reliability-Aware Residual Flow Meta-Learning for Open-Set Domain Generalization under Noisy Labels [85.78886153628663]
Open-Set Domain Generalizationは、ディープラーニングモデルが新しいドメインで目に見えないカテゴリを認識できるようにすることを目的としている。
ラベルノイズは、ソースドメインの知識を損なうことによって、オープンセットドメインの一般化を妨げる。
本稿では,ドメインギャップを埋めるために,Evidential Reliability-Aware Residual Flow Meta-Learning (EReLiFM)を提案する。
論文 参考訳(メタデータ) (2025-10-14T16:23:11Z) - OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning [19.823784666021822]
ACTORは、さまざまなクエリから内部アクティベーションパターンを活用することで、過剰な拒絶を最小化する。
ACTORは、リファインをトリガーするアクティベーションコンポーネントを正確に識別し、調整し、リファイン機構のより強力な制御を提供する。
論文 参考訳(メタデータ) (2025-07-06T05:47:04Z) - Invariance Makes LLM Unlearning Resilient Even to Unanticipated Downstream Fine-Tuning [46.170140576473365]
機械学習は、大規模言語モデル(LLM)におけるプライバシーと安全性の懸念に対する有望な解決策を提供する
不変リスク最小化(IRM)に触発されて、非学習に初めて不変を導入する。
我々は、頑健性を高める正規化ベースのフレームワークである不変LLMアンラーニング(ILU)を提案する。
論文 参考訳(メタデータ) (2025-06-02T05:38:43Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。