Fugu-MT 論文翻訳(概要): Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models

論文の概要: Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models

arxiv url: http://arxiv.org/abs/2504.14798v1
Date: Mon, 21 Apr 2025 01:56:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-29 20:03:45.568373
Title: Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models
Title（参考訳）: 未学習の未学習の検証:未学習モデルにおける残留知識の探索
Authors: Hao Xuan, Xingyu Li,
Abstract要約: 本稿では,ロバスト・アンラーニングの概念を導入し,モデルの再学習と敵の回復に対する抵抗性を確実にする。アンラーニング手法がこのセキュリティ基準を満たしているかどうかを実証的に評価するために,アンラーニングマッピング攻撃(UMA)を提案する。 UMAは、敵クエリを使って忘れられたトレースのモデルを積極的に探索する。
参考スコア（独自算出の注目度）: 10.041289551532804
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine Unlearning (MUL) is crucial for privacy protection and content regulation, yet recent studies reveal that traces of forgotten information persist in unlearned models, enabling adversaries to resurface removed knowledge. Existing verification methods only confirm whether unlearning was executed, failing to detect such residual information leaks. To address this, we introduce the concept of Robust Unlearning, ensuring models are indistinguishable from retraining and resistant to adversarial recovery. To empirically evaluate whether unlearning techniques meet this security standard, we propose the Unlearning Mapping Attack (UMA), a post-unlearning verification framework that actively probes models for forgotten traces using adversarial queries. Extensive experiments on discriminative and generative tasks show that existing unlearning techniques remain vulnerable, even when passing existing verification metrics. By establishing UMA as a practical verification tool, this study sets a new standard for assessing and enhancing machine unlearning security.
Abstract（参考訳）: マシン・アンラーニング(MUL)は、プライバシ保護とコンテンツ規制にとって重要であるが、近年の研究により、忘れられた情報の痕跡が未学習のモデルに残ることが判明し、敵の知識が再浮上する。既存の検証方法は、未学習が実行されたかどうかのみ確認し、そのような残余情報漏洩を検出できなかった。これを解決するために,ロバスト・アンラーニングの概念を導入する。本研究では,このセキュリティ基準を満たすアンラーニング手法を実証的に評価するために,非ラーニング後検証フレームワークであるUnlearning Mapping Attack (UMA)を提案する。差別的で生成的なタスクに関する大規模な実験は、既存の検証メトリクスをパスしても、既存の未学習のテクニックが脆弱であることを示しています。本研究は,UMAを実用的検証ツールとして確立することにより,マシンアンラーニングセキュリティの評価・強化のための新しい標準を策定する。

関連論文リスト

Unlearning Isn't Invisible: Detecting Unlearning Traces in LLMs from Model Outputs [19.08691637612329]
大規模言語モデル(LLM)のための機械学習(MU)は、特定の望ましくないデータや知識を訓練されたモデルから取り除こうとする。未学習のトレース検出という新たな脆弱性を特定します。すべてのモデルサイズにわたる未学習トレースの検出において, 誤り関連プロンプトが90%以上の精度で可能であることを示す。
論文参考訳（メタデータ） (2025-06-16T21:03:51Z)
Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods [0.9999629695552196]
素早い攻撃を受けると、いくつかの機械学習手法が失敗する可能性があることを示す。アウトプットベース、ロジットベース、プローブ分析を用いて、未学習の知識がどの程度検索できるかを判断する。
論文参考訳（メタデータ） (2025-06-11T23:36:30Z)
Redefining Machine Unlearning: A Conformal Prediction-Motivated Approach [1.3731623617634434]
既存の未学習指標の限界を同定し,共形予測にインスパイアされた評価指標を提案する。我々のメトリクスは、予測セットから基底真理ラベルが除外される範囲を効果的に捉えることができる。本稿では,Carini & Wagner 対逆攻撃損失に対する共形予測の洞察を統合するアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-31T18:58:43Z)
RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。これらのデータポイントを消去する目的で、多くの機械学習アルゴリズムが提案されている。本稿では,機械学習アルゴリズムが対象データ消去を行う能力を評価する,機械学習のためのRESTORフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-31T20:54:35Z)
Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。 LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文参考訳（メタデータ） (2024-08-20T09:36:04Z)
Verification of Machine Unlearning is Fragile [48.71651033308842]
両タイプの検証戦略を回避できる2つの新しい非学習プロセスを導入する。この研究は、機械学習検証の脆弱性と限界を強調し、機械学習の安全性に関するさらなる研究の道を開く。
論文参考訳（メタデータ） (2024-08-01T21:37:10Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。未学習の概念を導入し、未学習の知識を文脈内で再導入する。我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文参考訳（メタデータ） (2024-06-27T10:24:35Z)
Unlearning or Obfuscating? Jogging the Memory of Unlearned LLMs via Benign Relearning [37.061187080745654]
LLMにおけるアンラーニングに対する既存のアプローチは、単純な$textitbenign再ラーニング攻撃の影響を受けやすいことを示す。小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを'ジョグ'して、未学習の影響を逆転させることができることが分かりました。
論文参考訳（メタデータ） (2024-06-19T09:03:21Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Learn What You Want to Unlearn: Unlearning Inversion Attacks against Machine Unlearning [16.809644622465086]
我々は、機械学習が未学習データの機密内容を漏洩させる範囲を理解するために、最初の調査を行う。機械学習・アズ・ア・サービス・セッティングの下で、未学習サンプルの特徴とラベル情報を明らかにするアンラーニング・インバージョン・アタックを提案する。実験結果から,提案攻撃は未学習データのセンシティブな情報を明らかにすることができることが示された。
論文参考訳（メタデータ） (2024-04-04T06:37:46Z)
Learning to Unlearn: Instance-wise Unlearning for Pre-trained Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文参考訳（メタデータ） (2023-01-27T07:53:50Z)
Adversarial Targeted Forgetting in Regularization and Generative Based Continual Learning Models [2.8021833233819486]
継続的(あるいはインクリメンタル)な学習アプローチは、その後のバッチやストリーミングデータから追加の知識やタスクを学ぶ必要がある場合に使用される。知的敵は、既存の知識を時間とともに保持する連続学習アルゴリズムの能力を活用できることを示す。敵は、そのタスクのテストインスタンスに慎重に設計されたバックドアサンプルを挿入することで、任意のタスクについて「偽のメモリ」を作成できることを示します。
論文参考訳（メタデータ） (2021-02-16T18:45:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。