論文の概要: ROKA: Robust Knowledge Unlearning against Adversaries
- arxiv url: http://arxiv.org/abs/2603.00436v1
- Date: Sat, 28 Feb 2026 03:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.191851
- Title: ROKA: Robust Knowledge Unlearning against Adversaries
- Title(参考訳): Roka: 敵に対するロバストな知識の学習
- Authors: Jinmyeong Shin, Joshua Tapia, Nicholas Ferreira, Gabriel Diaz, Moayed Daneshyari, Hyeran Jeon,
- Abstract要約: データ操作を必要とせず、知識汚染の結果を生かして、セキュリティクリティカルな予測に対するモデルの精度を乱す、新たな非学習誘発攻撃モデル、すなわち間接的非学習攻撃を導入する。
我々の研究は、未学習における知識保存の理論的保証を初めて提供するものである。ビジョントランスフォーマー、マルチモーダルモデル、および大規模言語モデルなど、様々な大規模モデルに対する評価は、Rokaが保持されたデータの正確性を維持しつつ、効果的に目標を解き放つことを示している。
- 参考スコア(独自算出の注目度): 0.9236074230806578
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The need for machine unlearning is critical for data privacy, yet existing methods often cause Knowledge Contamination by unintentionally damaging related knowledge. Such a degraded model performance after unlearning has been recently leveraged for new inference and backdoor attacks. Most studies design adversarial unlearning requests that require poisoning or duplicating training data. In this study, we introduce a new unlearning-induced attack model, namely indirect unlearning attack, which does not require data manipulation but exploits the consequence of knowledge contamination to perturb the model accuracy on security-critical predictions. To mitigate this attack, we introduce a theoretical framework that models neural networks as Neural Knowledge Systems. Based on this, we propose ROKA, a robust unlearning strategy centered on Neural Healing. Unlike conventional unlearning methods that only destroy information, ROKA constructively rebalances the model by nullifying the influence of forgotten data while strengthening its conceptual neighbors. To the best of our knowledge, our work is the first to provide a theoretical guarantee for knowledge preservation during unlearning. Evaluations on various large models, including vision transformers, multi-modal models, and large language models, show that ROKA effectively unlearns targets while preserving, or even enhancing, the accuracy of retained data, thereby mitigating the indirect unlearning attacks.
- Abstract(参考訳): 機械学習の必要性はデータのプライバシにとって重要であるが、既存の手法は、意図せず関連する知識を損なうことによって、知識汚染を引き起こすことが多い。
アンラーニング後のこのような劣化したモデルパフォーマンスは、最近、新しい推論とバックドアアタックに活用されている。
ほとんどの研究は、有害なトレーニングデータや重複を必要とする敵の未学習要求を設計する。
本研究では,非学習による新たな攻撃モデル,すなわち間接的非学習攻撃を導入する。これはデータ操作を必要としないが,知識汚染の結果を利用して,セキュリティクリティカルな予測に対するモデルの精度を乱す。
この攻撃を軽減するために、ニューラルネットワークをニューラルネットワークとしてモデル化する理論的枠組みを導入する。
そこで我々は,ニューラルヒーリングを中心とした頑健なアンラーニング戦略であるRokaを提案する。
情報の破壊のみを行う従来のアンラーニング手法とは異なり、Rokaは概念的近傍を強化しつつ、忘れられたデータの影響を無効にすることで、モデルを再バランスさせる。
我々の知識を最大限に活用するために,我々の研究は,未学習時の知識保存に関する理論的保証を初めて提供するものである。
視覚変換器、マルチモーダルモデル、および大規模言語モデルを含む様々な大規模モデルの評価は、Rokaが保持データの正確性を保ちながら効果的にターゲットを解放し、それによって間接的未学習攻撃を軽減していることを示している。
関連論文リスト
- Auditing Language Model Unlearning via Information Decomposition [68.48660428111593]
部分的情報分解(PID)を用いたアンラーニング監査のための解釈可能な情報理論フレームワークを提案する。
非学習前後のモデル表現を比較することにより、相互情報と忘れられたデータとを別個の構成要素に分解し、未学習および残留知識の概念を定式化する。
我々の研究は、言語モデルのより安全なデプロイのための理論的洞察と実行可能なツールを提供する、アンラーニングのための原則付き表現レベル監査を導入している。
論文 参考訳(メタデータ) (2026-01-21T15:51:19Z) - Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - Zero-shot Class Unlearning via Layer-wise Relevance Analysis and Neuronal Path Perturbation [10.901970907686245]
機械学習は、大規模な再トレーニングを必要とせずに、トレーニングされたモデルから特定のデータの影響を取り除くテクニックである。
本稿では,階層的関連分析と神経経路摂動を用いた機械学習の新しい手法を提案する。
本手法は,高関連ニューロンを同定・摂動することで,機械学習性能とモデルの有用性のバランスをとる。
論文 参考訳(メタデータ) (2024-10-31T07:37:04Z) - Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.40798352740857]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning [7.557226714828334]
ニューラルネットワークから特定のデータサンプルの影響を除去する新しい学習機構を提案する。
この目的を達成するために、我々は、ターゲットモデルの重みやアクティベーション値からプライバシーに敏感な情報を排除するための、新しい損失関数を構築した。
本研究の結果は,未学習の有効性とレイテンシ,および主課題の忠実度の観点から,我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-07-01T00:20:26Z) - Learn What You Want to Unlearn: Unlearning Inversion Attacks against Machine Unlearning [16.809644622465086]
我々は、機械学習が未学習データの機密内容を漏洩させる範囲を理解するために、最初の調査を行う。
機械学習・アズ・ア・サービス・セッティングの下で、未学習サンプルの特徴とラベル情報を明らかにするアンラーニング・インバージョン・アタックを提案する。
実験結果から,提案攻撃は未学習データのセンシティブな情報を明らかにすることができることが示された。
論文 参考訳(メタデータ) (2024-04-04T06:37:46Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z) - Learning to Detect: A Data-driven Approach for Network Intrusion
Detection [17.288512506016612]
ネットワークトラフィックデータセットであるNSL-KDDについて、パターンを可視化し、異なる学習モデルを用いてサイバー攻撃を検出することで包括的な研究を行う。
侵入検知に単一学習モデルアプローチを用いた従来の浅層学習モデルや深層学習モデルとは異なり、階層戦略を採用する。
バイナリ侵入検出タスクにおける教師なし表現学習モデルの利点を実証する。
論文 参考訳(メタデータ) (2021-08-18T21:19:26Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。