論文の概要: SEPS: A Separability Measure for Robust Unlearning in LLMs
- arxiv url: http://arxiv.org/abs/2505.14832v1
- Date: Tue, 20 May 2025 18:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.714856
- Title: SEPS: A Separability Measure for Robust Unlearning in LLMs
- Title(参考訳): SEPS: LLMにおけるロバスト・アンラーニングのための分離性尺度
- Authors: Wonje Jeung, Sangyeon Yoon, Albert No,
- Abstract要約: 機械学習は大規模言語モデル(LLM)から対象とする知識を選択的に除去することを目的としている
既存の未学習のメトリクスは、クエリが独立して現れることはめったにない、現実世界のシナリオをキャプチャできない。
我々は,クエリの忘れと保持の両方を統一的な学習目標に統合する戦略であるMixed Prompt(MP)アンラーニングを提案する。
- 参考スコア(独自算出の注目度): 5.116399056871577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning aims to selectively remove targeted knowledge from Large Language Models (LLMs), ensuring they forget specified content while retaining essential information. Existing unlearning metrics assess whether a model correctly answers retain queries and rejects forget queries, but they fail to capture real-world scenarios where forget queries rarely appear in isolation. In fact, forget and retain queries often coexist within the same prompt, making mixed-query evaluation crucial. We introduce SEPS, an evaluation framework that explicitly measures a model's ability to both forget and retain information within a single prompt. Through extensive experiments across three benchmarks, we identify two key failure modes in existing unlearning methods: (1) untargeted unlearning indiscriminately erases both forget and retain content once a forget query appears, and (2) targeted unlearning overfits to single-query scenarios, leading to catastrophic failures when handling multiple queries. To address these issues, we propose Mixed Prompt (MP) unlearning, a strategy that integrates both forget and retain queries into a unified training objective. Our approach significantly improves unlearning effectiveness, demonstrating robustness even in complex settings with up to eight mixed forget and retain queries in a single prompt.
- Abstract(参考訳): 機械学習の目的は、ターゲットとなる知識をLarge Language Models (LLM) から選択的に取り除き、重要な情報を保持しながら特定のコンテンツを忘れることである。
既存のアンラーニングメトリクスは、モデルがクエリを正しく答えているかどうかを評価し、クエリを忘れる。
実際、クエリを忘れたり、保持したりすることは、しばしば同じプロンプト内で共存する。
SEPSは、モデルが単一のプロンプト内で情報を忘れたり保持したりする能力を明示的に測定する評価フレームワークである。
既存のアンラーニング手法において,(1)未学習の未学習は,忘れたクエリが現れると,内容を忘れたり,保持したりするという2つの重要な障害モードを同定し,(2)単一クエリのシナリオに未学習を過度に適合させることにより,複数のクエリを扱う際の破滅的な障害の原因となる。
これらの問題に対処するため,我々は,クエリの忘れと保持を統一的な学習目標に統合する戦略であるMixed Prompt (MP) Unlearningを提案する。
提案手法は,1つのプロンプトでクエリを最大8つ混合した複雑な設定であっても,堅牢性を証明し,未学習の有効性を大幅に向上させる。
関連論文リスト
- CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP [56.199779065855004]
CLIPEraseは視覚的・テキスト的関連を選択的に忘れる新しいアプローチである。
CIFAR-100とFlickr30Kデータセットの実験は、CLIPEraseがマルチモーダルサンプルのゼロショットタスクにおける指定された関連性を効果的に忘れていることを示している。
論文 参考訳(メタデータ) (2024-10-30T17:51:31Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - Few-Shot Class Incremental Learning with Attention-Aware Self-Adaptive Prompt [58.880105981772324]
ASP(Attention-Aware Self-Adaptive Prompt)という新しいフレームワークを提案する。
ASP.NETはタスク不変のプロンプトを奨励し、注意点から特定の情報を減らすことで共有知識をキャプチャする。
要約すると、ASPはベースタスクの過度な適合を防ぎ、数秒のインクリメンタルタスクで膨大なデータを必要としない。
論文 参考訳(メタデータ) (2024-03-14T20:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。