論文の概要: SEPS: A Separability Measure for Robust Unlearning in LLMs
- arxiv url: http://arxiv.org/abs/2505.14832v2
- Date: Tue, 27 May 2025 08:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.6652
- Title: SEPS: A Separability Measure for Robust Unlearning in LLMs
- Title(参考訳): SEPS: LLMにおけるロバスト・アンラーニングのための分離性尺度
- Authors: Wonje Jeung, Sangyeon Yoon, Albert No,
- Abstract要約: 機械学習は大規模言語モデル(LLM)から対象とする知識を選択的に除去することを目的としている
既存の未学習のメトリクスは、クエリが独立して現れることはめったにない、現実世界のシナリオをキャプチャできない。
我々は,クエリの忘れと保持の両方を統一的な学習目標に統合する戦略であるMixed Prompt(MP)アンラーニングを提案する。
- 参考スコア(独自算出の注目度): 5.116399056871577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning aims to selectively remove targeted knowledge from Large Language Models (LLMs), ensuring they forget specified content while retaining essential information. Existing unlearning metrics assess whether a model correctly answers retain queries and rejects forget queries, but they fail to capture real-world scenarios where forget queries rarely appear in isolation. In fact, forget and retain queries often coexist within the same prompt, making mixed-query evaluation crucial. We introduce SEPS, an evaluation framework that explicitly measures a model's ability to both forget and retain information within a single prompt. Through extensive experiments across three benchmarks, we identify two key failure modes in existing unlearning methods: (1) untargeted unlearning indiscriminately erases both forget and retain content once a forget query appears, and (2) targeted unlearning overfits to single-query scenarios, leading to catastrophic failures when handling multiple queries. To address these issues, we propose Mixed Prompt (MP) unlearning, a strategy that integrates both forget and retain queries into a unified training objective. Our approach significantly improves unlearning effectiveness, demonstrating robustness even in complex settings with up to eight mixed forget and retain queries in a single prompt.
- Abstract(参考訳): 機械学習の目的は、ターゲットとなる知識をLarge Language Models (LLM) から選択的に取り除き、重要な情報を保持しながら特定のコンテンツを忘れることである。
既存のアンラーニングメトリクスは、モデルがクエリを正しく答えているかどうかを評価し、クエリを忘れる。
実際、クエリを忘れたり、保持したりすることは、しばしば同じプロンプト内で共存する。
SEPSは、モデルが単一のプロンプト内で情報を忘れたり保持したりする能力を明示的に測定する評価フレームワークである。
既存のアンラーニング手法において,(1)未学習の未学習は,忘れたクエリが現れると,内容を忘れたり,保持したりするという2つの重要な障害モードを同定し,(2)単一クエリのシナリオに未学習を過度に適合させることにより,複数のクエリを扱う際の破滅的な障害の原因となる。
これらの問題に対処するため,我々は,クエリの忘れと保持を統一的な学習目標に統合する戦略であるMixed Prompt (MP) Unlearningを提案する。
提案手法は,1つのプロンプトでクエリを最大8つ混合した複雑な設定であっても,堅牢性を証明し,未学習の有効性を大幅に向上させる。
関連論文リスト
- BLUR: A Benchmark for LLM Unlearning Robust to Forget-Retain Overlap [18.68387394444096]
機械学習は、大規模な言語モデル(LLM)の安全性を向上させる可能性を秘めている。
非学習における鍵となる課題は、忘れられた品質(事実上望ましくない情報)のバランスをとることと、品質を維持すること(他の一般的なタスクにおいて優れたパフォーマンスを維持すること)である。
LLM アンラーニングのためのベンチマークである $textttBLUR$ を提示する。
論文 参考訳(メタデータ) (2025-05-28T22:09:04Z) - CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP [56.199779065855004]
CLIPEraseは視覚的・テキスト的関連を選択的に忘れる新しいアプローチである。
CIFAR-100とFlickr30Kデータセットの実験は、CLIPEraseがマルチモーダルサンプルのゼロショットタスクにおける指定された関連性を効果的に忘れていることを示している。
論文 参考訳(メタデータ) (2024-10-30T17:51:31Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - Answer When Needed, Forget When Not: Language Models Pretend to Forget via In-Context Knowledge Unlearning [26.861562920084264]
大規模言語モデル(LLM)は様々な領域にまたがって適用される。
文脈内知識アンラーニング」という新しい手法を提案する。
本手法は,無関係な知識の80%を保持しながら,最大95%の精度を忘れることが可能である。
論文 参考訳(メタデータ) (2024-10-01T04:13:25Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Few-Shot Class Incremental Learning with Attention-Aware Self-Adaptive Prompt [58.880105981772324]
ASP(Attention-Aware Self-Adaptive Prompt)という新しいフレームワークを提案する。
ASP.NETはタスク不変のプロンプトを奨励し、注意点から特定の情報を減らすことで共有知識をキャプチャする。
要約すると、ASPはベースタスクの過度な適合を防ぎ、数秒のインクリメンタルタスクで膨大なデータを必要としない。
論文 参考訳(メタデータ) (2024-03-14T20:34:53Z) - TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Class-wise Federated Unlearning: Harnessing Active Forgetting with Teacher-Student Memory Generation [11.638683787598817]
能動的忘れ込みに基づく神経刺激型フェデレーション・アンラーニング・フレームワークを提案する。
我々のフレームワークは、新しい記憶を利用して古い記憶を上書きすることで、既存の方法と差別化している。
本手法は,バックドア攻撃に対する未学習の完全性を実現する。
論文 参考訳(メタデータ) (2023-07-07T03:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。