論文の概要: BLUR: A Benchmark for LLM Unlearning Robust to Forget-Retain Overlap
- arxiv url: http://arxiv.org/abs/2506.15699v1
- Date: Wed, 28 May 2025 22:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.762837
- Title: BLUR: A Benchmark for LLM Unlearning Robust to Forget-Retain Overlap
- Title(参考訳): BLUR: LLMアンラーニングロバストのためのベンチマーク
- Authors: Shengyuan Hu, Neil Kale, Pratiksha Thaker, Yiwei Fu, Steven Wu, Virginia Smith,
- Abstract要約: 機械学習は、大規模な言語モデル(LLM)の安全性を向上させる可能性を秘めている。
非学習における鍵となる課題は、忘れられた品質(事実上望ましくない情報)のバランスをとることと、品質を維持すること(他の一般的なタスクにおいて優れたパフォーマンスを維持すること)である。
LLM アンラーニングのためのベンチマークである $textttBLUR$ を提示する。
- 参考スコア(独自算出の注目度): 18.68387394444096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning has the potential to improve the safety of large language models (LLMs) by removing sensitive or harmful information post hoc. A key challenge in unlearning involves balancing between forget quality (effectively unlearning undesirable information) and retain quality (maintaining good performance on other, general tasks). Unfortunately, as we show, current LLM unlearning benchmarks contain highly disparate forget and retain sets -- painting a false picture of the effectiveness of LLM unlearning methods. This can be particularly problematic because it opens the door for benign perturbations, such as relearning attacks, to easily reveal supposedly unlearned knowledge once models are deployed. To address this, we present $\texttt{BLUR}$: a benchmark for LLM unlearning that provides more realistic scenarios of forget-retain overlap. $\texttt{BLUR}$ significantly expands on existing unlearning benchmarks by providing extended evaluation tasks, combined forget/retain queries, and relearning datasets of varying degrees of difficulty. Despite the benign nature of the queries considered, we find that the performance of existing methods drops significantly when evaluated on $\texttt{BLUR}$, with simple approaches performing better on average than more recent methods. These results highlight the importance of robust evaluation and suggest several important directions of future study. Our benchmark is publicly available at: https://huggingface.co/datasets/forgelab/BLUR
- Abstract(参考訳): 機械学習は、大規模な言語モデル(LLM)の安全性を向上させる可能性を秘めている。
非学習における重要な課題は、品質(事実上望ましくない情報を学習する)と品質(他の一般的なタスクで優れたパフォーマンスを維持する)のバランスをとることである。
残念ながら、私たちが示すように、現在のLLMアンラーニングベンチマークには、非常に異なる忘れとセットの保持が含まれており、LLMアンラーニングメソッドの有効性の偽の絵が描かれています。
これは、再学習攻撃のような良心的な摂動の扉を開くことで、モデルがデプロイされると、未知の知識が容易に明らかになるため、特に問題となる可能性がある。
これを解決するために,LLMアンラーニングのためのベンチマークである$\texttt{BLUR}$を提示する。
$\texttt{BLUR}$は、拡張された評価タスク、複合的な忘れ/保持クエリ、さまざまな難易度データセットの再学習を提供することで、既存のアンラーニングベンチマークを大幅に拡張する。
クエリの良さにもかかわらず、$\texttt{BLUR}$で評価すると、既存のメソッドのパフォーマンスは大幅に低下する。
これらの結果は、ロバスト評価の重要性を強調し、今後の研究のいくつかの重要な方向性を示唆している。
私たちのベンチマークは、https://huggingface.co/datasets/forgelab/BLURで公開されています。
関連論文リスト
- Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - BLUR: A Bi-Level Optimization Approach for LLM Unlearning [105.98410883830596]
未学習問題の階層構造をモデル化することが重要であると論じる。
本稿では,より優れた性能を実現する新しいアルゴリズムであるBi-Level UnleaRning(textttBLUR)を提案する。
論文 参考訳(メタデータ) (2025-06-09T19:23:05Z) - GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection [36.38245533018162]
大規模言語モデル(LLM)は、多様なドメインにまたがる膨大な知識を記憶する強力な能力を示している。
既存の未学習の取り組みは、通常、モデルを忘れデータ、データ保持、キャリブレーションモデルといったリソースで微調整する。
本稿では,LLM生成時の動的アンラーニングを実現するフレームワークであるAdaptive Restriction and Detection (GUARD) による生成時アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:26:58Z) - LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks [23.5632914682956]
大規模言語モデルアンラーニングは、安全性と制御モデル行動を保証する上で重要な課題となっている。
LLMのアンラーニングは、かなり小さなサブセット(コアセットとして機能する)で効果的に維持可能であることを示す。
これは、非常に低データ状態であっても、これらのベンチマークでのLLMアンラーニングが驚くほど容易に実行可能であることを示唆している。
論文 参考訳(メタデータ) (2025-04-14T12:38:37Z) - Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
アンラーニングが一般的なモデル能力に顕著な影響を与えていることを示す。
簡単な方法で5ショットのプロンプトやリフレーズを行うことで、未学習ベンチマークの精度が10倍以上に向上する可能性があることを示す。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Offset Unlearning for Large Language Models [49.851093293780615]
delta-Unlearningは、ブラックボックスLLMのためのオフセットのアンラーニングフレームワークである。
デルタアンラーニングは、一般的な対物スコープタスクにおいて、類似またはより強い性能を維持しながら、効果的にターゲットデータを解放できることを示す。
論文 参考訳(メタデータ) (2024-04-17T03:39:51Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。