論文の概要: REMIND: Input Loss Landscapes Reveal Residual Memorization in Post-Unlearning LLMs
- arxiv url: http://arxiv.org/abs/2511.04228v1
- Date: Thu, 06 Nov 2025 09:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.38263
- Title: REMIND: Input Loss Landscapes Reveal Residual Memorization in Post-Unlearning LLMs
- Title(参考訳): インプット・ロスのランドスケープは、学習後LLMの残像を記憶する
- Authors: Liran Cohen, Yaniv Nemcovesky, Avi Mendelson,
- Abstract要約: 機械学習は、モデルから特定のトレーニングデータの影響を、完全な再トレーニングを必要とせずに取り除くことを目的としている。
未学習データの微妙な残差を検出するための新しい評価手法であるREMINDを提案する。
未学習のデータは、より平坦で、より急なロスランドスケープをもたらす一方、保持または関連のないデータは、より鋭く、より揮発性のあるパターンを示す。
- 参考スコア(独自算出の注目度): 0.1784233255402269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine unlearning aims to remove the influence of specific training data from a model without requiring full retraining. This capability is crucial for ensuring privacy, safety, and regulatory compliance. Therefore, verifying whether a model has truly forgotten target data is essential for maintaining reliability and trustworthiness. However, existing evaluation methods often assess forgetting at the level of individual inputs. This approach may overlook residual influence present in semantically similar examples. Such influence can compromise privacy and lead to indirect information leakage. We propose REMIND (Residual Memorization In Neighborhood Dynamics), a novel evaluation method aiming to detect the subtle remaining influence of unlearned data and classify whether the data has been effectively forgotten. REMIND analyzes the model's loss over small input variations and reveals patterns unnoticed by single-point evaluations. We show that unlearned data yield flatter, less steep loss landscapes, while retained or unrelated data exhibit sharper, more volatile patterns. REMIND requires only query-based access, outperforms existing methods under similar constraints, and demonstrates robustness across different models, datasets, and paraphrased inputs, making it practical for real-world deployment. By providing a more sensitive and interpretable measure of unlearning effectiveness, REMIND provides a reliable framework to assess unlearning in language models. As a result, REMIND offers a novel perspective on memorization and unlearning.
- Abstract(参考訳): 機械学習は、モデルから特定のトレーニングデータの影響を、完全なリトレーニングを必要とせずに取り除くことを目的としている。
この機能は、プライバシ、安全性、規制の遵守を保証するために不可欠です。
したがって、モデルが真の目標データを忘れているかどうかを検証することは、信頼性と信頼性を維持するために不可欠である。
しかし、既存の評価手法では、個々の入力のレベルでの忘れの評価がしばしば行われている。
このアプローチは、意味論的に類似した例に存在する残差の影響を見逃すかもしれない。
このような影響はプライバシーを侵害し、間接的な情報漏洩につながる可能性がある。
本稿では,未学習データの微妙な残差を検知し,そのデータが効果的に忘れられたかどうかを分類する手法であるREMIND(Residual Memorization In Neighborhood Dynamics)を提案する。
REMINDは、小さな入力のバリエーションよりもモデルの損失を分析し、単一点評価に気付かないパターンを明らかにする。
未学習のデータは、より平坦で、より急なロスランドスケープをもたらす一方、保持または関連のないデータは、より鋭く、より揮発性のあるパターンを示す。
REMINDはクエリベースのアクセスのみを必要とし、同様の制約下で既存のメソッドを上回り、異なるモデル、データセット、パラフレーズ入力間の堅牢性を示し、現実世界のデプロイに実用的である。
REMINDは、非学習の有効性をより敏感で解釈可能な尺度を提供することで、言語モデルにおける非学習を評価するための信頼性の高いフレームワークを提供する。
その結果、REMINDは記憶と未学習に関する新しい視点を提供する。
関連論文リスト
- How Far Are We from True Unlearnability? [8.176905459241047]
学習不可能なサンプル(UE)を生成するために、データのトレーニング可用性を妥協して、いくつかの学習不可能な手法が提案されている。
私たちはどの程度、真に学べない例が得られないのか調査しています。
クリーンモデルおよび有毒モデルにおけるパラメータのSAL分布に基づいて、データの非有毒度を測定するための非有毒距離(UD)を提案する。
論文 参考訳(メタデータ) (2025-09-09T18:01:10Z) - Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs [54.167494079321465]
LLMの現在のアンラーニング方法は、それらを微調整データに組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。
本研究では,未学習目標を学習対象に含まない新しい非学習手法-部分的モデル崩壊(PMC)を提案する。
論文 参考訳(メタデータ) (2025-07-06T03:08:49Z) - Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols [14.961054239793356]
本稿では,下流のタスククラスと意味的類似性を示すクラスを忘れる,厳密なアンラーニング評価手法を提案する。
われわれのベンチマークは、現実的な条件下での未学習アルゴリズム評価のための標準化されたプロトコルとして機能することを願っている。
論文 参考訳(メタデータ) (2025-03-10T07:11:34Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Partially Blinded Unlearning: Class Unlearning for Deep Networks a Bayesian Perspective [4.31734012105466]
マシン・アンラーニング(英: Machine Unlearning)とは、特定のデータセットやクラスに指定された情報を事前訓練されたモデルから選択的に破棄するプロセスである。
本研究では,事前学習した分類ネットワークから,特定の種類のデータに関連付けられた情報の目的的除去に適した手法を提案する。
本手法は,従来の最先端の未学習手法を超越し,優れた有効性を示す。
論文 参考訳(メタデータ) (2024-03-24T17:33:22Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - An Information Theoretic Approach to Machine Unlearning [43.423418819707784]
AIやデータ規則に従うためには、トレーニングされた機械学習モデルからプライベートまたは著作権のある情報を忘れる必要性がますます高まっている。
この研究では、ゼロショットのアンラーニングシナリオに対処し、未学習のアルゴリズムは、トレーニングされたモデルと忘れられるデータだけが与えられたデータを削除できなければならない。
モデルの幾何に基づいて、単純だが原則化されたゼロショットアンラーニング法を導出する。
論文 参考訳(メタデータ) (2024-02-02T13:33:30Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。