論文の概要: Memory Self-Regeneration: Uncovering Hidden Knowledge in Unlearned Models
- arxiv url: http://arxiv.org/abs/2510.03263v1
- Date: Fri, 26 Sep 2025 19:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.817718
- Title: Memory Self-Regeneration: Uncovering Hidden Knowledge in Unlearned Models
- Title(参考訳): メモリ自己再生:未学習モデルにおける隠れた知識の発見
- Authors: Agnieszka Polowczyk, Alicja Polowczyk, Joanna Waczyńska, Piotr Borycki, Przemysław Spurek,
- Abstract要約: モデルが知識を忘れ、思い出す能力について考察する。
本稿では,失った知識の効果的な回復を支援するための再生的アプローチとして,MemoRa戦略を提案する。
- 参考スコア(独自算出の注目度): 1.3654763247057877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impressive capability of modern text-to-image models to generate realistic visuals has come with a serious drawback: they can be misused to create harmful, deceptive or unlawful content. This has accelerated the push for machine unlearning. This new field seeks to selectively remove specific knowledge from a model's training data without causing a drop in its overall performance. However, it turns out that actually forgetting a given concept is an extremely difficult task. Models exposed to attacks using adversarial prompts show the ability to generate so-called unlearned concepts, which can be not only harmful but also illegal. In this paper, we present considerations regarding the ability of models to forget and recall knowledge, introducing the Memory Self-Regeneration task. Furthermore, we present MemoRa strategy, which we consider to be a regenerative approach supporting the effective recovery of previously lost knowledge. Moreover, we propose that robustness in knowledge retrieval is a crucial yet underexplored evaluation measure for developing more robust and effective unlearning techniques. Finally, we demonstrate that forgetting occurs in two distinct ways: short-term, where concepts can be quickly recalled, and long-term, where recovery is more challenging.
- Abstract(参考訳): 現代のテキストと画像のモデルがリアルなヴィジュアライゼーションを生成するという印象的な能力は、深刻な欠点を生んでいる。
これにより、機械学習の推進が加速した。
この新たな分野は、全体的なパフォーマンスを低下させることなく、モデルのトレーニングデータから特定の知識を選択的に除去することを目指している。
しかし、ある概念を実際に忘れるのは非常に難しい作業であることがわかった。
敵のプロンプトを使って攻撃に晒されたモデルは、いわゆる未学習の概念を生成する能力を示している。
本稿では,記憶自己再生タスクを導入して,モデルが知識を忘れ,思い出す能力について考察する。
さらに,失った知識の効果的な回復を支援する再生的手法として,MemoRa戦略を提案する。
さらに,知識検索におけるロバスト性は,より堅牢で効果的なアンラーニング手法を開発する上で,重要かつ過度に検討された評価尺度であることが示唆された。
最後に, 概念を素早くリコールできる短期的, 回復が困難な長期的という2つの異なる方法で, 忘れが生じることを実証する。
関連論文リスト
- Pre-Forgettable Models: Prompt Learning as a Native Mechanism for Unlearning [9.512928441517811]
ファンデーションモデルは、様々なモダリティやタスクにまたがる堅牢で伝達可能な表現を可能にすることによって、マルチメディア分析を変革してきた。
リトレーニング、アクティベーション編集、蒸留を含む従来の未学習のアプローチは、しばしば高価で脆弱で、リアルタイムまたは継続的な進化するシステムに不適である。
本稿では,知識の獲得と除去を1つの学習段階内に統一する,プロンプトベースの学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-05T13:28:04Z) - Mitigating Catastrophic Forgetting and Mode Collapse in Text-to-Image Diffusion via Latent Replay [0.0]
継続的な学習は自然知性の基本である。
「破滅的な忘れ」は、新しいタスクの学習が以前獲得した知識を消去するときに起こる。
Latent Replayは、生成AIモデルのための効率的な連続学習を可能にする。
論文 参考訳(メタデータ) (2025-09-04T23:45:22Z) - Step-by-Step Reasoning Attack: Revealing 'Erased' Knowledge in Large Language Models [9.719371187651591]
未学習のテクニックは、その知識を表面下で抑制し、残すことで、正しいプロンプトで取り出すことができる。
我々は、段階的に推論に基づくブラックボックス攻撃であるSleekを導入し、非学習障害を体系的に暴露する。
生成した敵のプロンプトのうち62.5%がWHPの未発表のラマから忘れられたハリー・ポッターの事実を回収し、50%は不当な知識の抑制を暴露した。
論文 参考訳(メタデータ) (2025-06-14T04:22:17Z) - Continual Unlearning for Foundational Text-to-Image Models without Generalization Erosion [56.35484513848296]
本研究は,基本生成モデルから複数の特定の概念を対象とする除去を可能にする新しいパラダイムである連続的アンラーニングを導入する。
本稿では,望ましくない概念の生成を選択的に解き放つような一般化エロージョン(DUGE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-17T23:17:16Z) - RESTOR: Knowledge Recovery in Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Hiding and Recovering Knowledge in Text-to-Image Diffusion Models via Learnable Prompts [23.04942433104886]
我々は、望ましくない概念を公開ユーザにとってアクセスし難いものにする、新しいコンセプトハイディングアプローチを導入する。
モデルから知識を完全に消去する代わりに、学習可能なプロンプトをクロスアテンションモジュールに組み込む。
これにより、フレキシブルなアクセス制御が可能になります -- 望ましくないコンテンツが簡単に生成されないようにし、再保存するオプションを保持します。
論文 参考訳(メタデータ) (2024-03-18T23:42:04Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - False Memory Formation in Continual Learners Through Imperceptible
Backdoor Trigger [3.3439097577935213]
連続的な(漸進的な)学習モデルに提示される新しい情報を逐次学習すること。
知的敵は、訓練中に、特定のタスクやクラスを意図的に忘れないように、少量の誤報をモデルに導入できることを示す。
筆者らは、一般的に使われている生成的リプレイと正規化に基づく連続学習アプローチに「バックドア」攻撃サンプルを注入することにより、モデルの制御を前提とする敵の能力を実証する。
論文 参考訳(メタデータ) (2022-02-09T14:21:13Z) - Preserving Earlier Knowledge in Continual Learning with the Help of All
Previous Feature Extractors [63.21036904487014]
時間とともに新しい知識の継続的な学習は、インテリジェントシステムがより多くのオブジェクトのクラスを認識するのに望ましい能力の1つである。
これまでに学んだすべての特徴抽出器をインテリジェントモデルに組み込むことで、シンプルで効果的な融合メカニズムを提案します。
複数の分類タスクの実験により,提案手法は従来の知識の忘れを効果的に減らし,最先端の継続的学習性能を達成できることが示されている。
論文 参考訳(メタデータ) (2021-04-28T07:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。