論文の概要: RULER: Representation-Level Verification of Machine Unlearning
- arxiv url: http://arxiv.org/abs/2605.27569v2
- Date: Sun, 31 May 2026 21:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.62101
- Title: RULER: Representation-Level Verification of Machine Unlearning
- Title(参考訳): RULER: マシンアンラーニングの表現レベル検証
- Authors: Georgina Cosma, Axel Finke,
- Abstract要約: 本稿では,表現レベルの検証指標であるRULERを紹介する。
M2は、リトレーニングされていないモデルと同じ表現位置を占めるかどうかを測定する。
M4は、未学習モデルの内部類似構造からの残留物のみを再訓練することなく検出する。
- 参考スコア(独自算出の注目度): 0.17188280334580197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning aims to remove the influence of specific training records from a deployed model without retraining from scratch. Current protocols verify this at the output level through membership inference, retain accuracy, and forget-set accuracy, but a model can satisfy all three whilst still encoding forgotten records in its intermediate representations. We introduce RULER, a set of representation-level verification metrics. The oracle-comparative metric M2 measures whether forget-set records occupy the same representational position as in a model retrained without them. The oracle-free metric M4 detects residuals from the unlearned model's internal similarity structure alone, without retraining. Four approximate unlearning methods all pass output-level evaluation, yet under a linear mixed-effects model M2 detects significant residuals in 10 of 12 conditions (p<0.05), with effect sizes growing as the forget fraction increases. A fifth method, Bad Teacher, shows the same residuals despite a different forgetting mechanism. M4 acts as a pre-unlearning diagnostic across tabular, image, clinical text, and face-identity settings: it detects identity-level memorisation in face recognition models where no tested method fully erases the signal.
- Abstract(参考訳): 機械学習の目的は、スクラッチからリトレーニングすることなく、デプロイされたモデルから特定のトレーニングレコードの影響を取り除くことである。
現在のプロトコルでは、メンバシップの推測、精度の保持、および忘れられたセットの正確性を通じて、これを出力レベルで検証しているが、モデルはその中間表現で忘れられたレコードを符号化しながら、3つ全てを満たすことができる。
本稿では,表現レベルの検証指標であるRULERを紹介する。
オラクル比較計量M2は、忘れセットレコードがそれらなしで再訓練されたモデルと同じ表現的位置を占めるかどうかを測定する。
オラクルフリー計量M4は、学習されていないモデルの内部類似構造からの残留物を再学習することなく検出する。
線形混合効果モデルM2では,12条件中10条件 (p<0.05) に有意な残差が検出され, 差分の増加とともに効果が増大する。
第5の方法であるBad Teacherは、異なる忘れるメカニズムにもかかわらず、同じ残余を示す。
M4は、表、画像、臨床テキスト、および顔の同一性設定にわたる未学習診断として機能し、テスト方法が完全に信号を消去していない顔認識モデルにおいて、アイデンティティレベルの記憶を検出する。
関連論文リスト
- Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution [3.6704226968275253]
量子化を乗り越える手法はモデルにほとんど変化しないが, 圧縮条件下では, 有意義な忘れ方を実現するための勾配に基づく手法を示す。
因果回路の属性を組み合わせることで両モードを解消し,最小限の差分集合部分グラフを分離するMANSUを提案する。
さらに,構造的消去と行動抑制を区別する機構的検証尺度であるCircuit Attribution Divergence(CAD)を導入する。
論文 参考訳(メタデータ) (2026-05-14T17:44:10Z) - Not Every Subject Should Stay: Machine Unlearning for Noisy Engagement Recognition [53.005382593686356]
エンゲージメント認識データセットは典型的には主観的インデクシングであり、しばしば騒々しく主観的な監督を含んでいる。
本研究では、この設定を、エンゲージメント認識のためのポストホック衛生機構として、主観レベルマシンアンラーニングを通して研究する。
論文 参考訳(メタデータ) (2026-05-06T10:03:06Z) - Learning the Signature of Memorization in Autoregressive Language Models [3.6048665052465663]
我々は,任意のコーパス上の任意のモデルを微調整することで,ラベル付きデータを無制限に生成する,最初のトランスファー可能な学習攻撃を導入する。
これにより、シャドーモデルボトルネックが取り除かれ、深層学習時代へのメンバシップ推論がもたらされる。
論文 参考訳(メタデータ) (2026-04-03T17:17:51Z) - REMIND: Input Loss Landscapes Reveal Residual Memorization in Post-Unlearning LLMs [0.1784233255402269]
機械学習は、モデルから特定のトレーニングデータの影響を、完全な再トレーニングを必要とせずに取り除くことを目的としている。
未学習データの微妙な残差を検出するための新しい評価手法であるREMINDを提案する。
未学習のデータは、より平坦で、より急なロスランドスケープをもたらす一方、保持または関連のないデータは、より鋭く、より揮発性のあるパターンを示す。
論文 参考訳(メタデータ) (2025-11-06T09:58:19Z) - Unlearning Isn't Deletion: Investigating Reversibility of Machine Unlearning in LLMs [38.837810490068556]
大規模言語モデル(LLM)におけるアンラーニングは、指定されたデータを削除することを目的としているが、その効果は通常、正確性や複雑度のようなタスクレベルのメトリクスで評価される。
最小限の微調整によって元の動作が容易に復元される間、モデルは忘れることができることを実証する。
この表現可能性の現象は、情報は単に抑圧されているだけであり、真に消去されていないことを示唆している。
論文 参考訳(メタデータ) (2025-05-22T16:02:10Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - TruVRF: Towards Triple-Granularity Verification on Machine Unlearning [4.3667223256713745]
TruVRFは、クラスレベル、ボリュームレベル、サンプルレベルの粒度で動作する非侵襲的な未学習検証フレームワークである。
さまざまな種類の不適切なサーバを検出するために設計された3つのUnlearning-Metricsが含まれている。
TruVRFの堅牢な性能を示し、Metrics IとIIIの90%以上の精度、Metrics IIの4.8%から8.2%の推論偏差を示した。
論文 参考訳(メタデータ) (2024-08-12T11:29:54Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z) - Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。
本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文 参考訳(メタデータ) (2023-01-11T06:32:28Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。