論文の概要: WaterDrum: Watermarking for Data-centric Unlearning Metric
- arxiv url: http://arxiv.org/abs/2505.05064v1
- Date: Thu, 08 May 2025 08:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.815853
- Title: WaterDrum: Watermarking for Data-centric Unlearning Metric
- Title(参考訳): WaterDrum: データ中心の未学習メトリックのための透かし
- Authors: Xinyang Lu, Xinyuan Niu, Gregory Kang Ruey Lau, Bui Thi Cam Nhung, Rachael Hwee Ling Sim, Fanyu Wen, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low,
- Abstract要約: 大規模言語モデル(LLM)のアンラーニングは、一部のユーザからプライベート、著作権、有害なデータの影響を効率的に除去する必要がある現実世界のアプリケーションにおいて重要である。
本稿では,制約を克服するためにロバストなテキスト透かしを利用する,WaterDrum と呼ばれる LLM のためのデータ中心の非学習指標を提案する。
また、LLMアンラーニングのための新しいベンチマークデータセットを導入し、類似したデータポイントのさまざまなレベルを含み、WaterDrumを使って未学習アルゴリズムを厳格に評価することができる。
- 参考スコア(独自算出の注目度): 47.36231091296615
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language model (LLM) unlearning is critical in real-world applications where it is necessary to efficiently remove the influence of private, copyrighted, or harmful data from some users. However, existing utility-centric unlearning metrics (based on model utility) may fail to accurately evaluate the extent of unlearning in realistic settings such as when (a) the forget and retain set have semantically similar content, (b) retraining the model from scratch on the retain set is impractical, and/or (c) the model owner can improve the unlearning metric without directly performing unlearning on the LLM. This paper presents the first data-centric unlearning metric for LLMs called WaterDrum that exploits robust text watermarking for overcoming these limitations. We also introduce new benchmark datasets for LLM unlearning that contain varying levels of similar data points and can be used to rigorously evaluate unlearning algorithms using WaterDrum. Our code is available at https://github.com/lululu008/WaterDrum and our new benchmark datasets are released at https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
- Abstract(参考訳): 大規模言語モデル(LLM)のアンラーニングは、一部のユーザからプライベート、著作権、有害なデータの影響を効率的に除去する必要がある現実世界のアプリケーションにおいて重要である。
しかし、既存のユーティリティ中心のアンラーニングメトリクス(モデルユーティリティに基づく)は、いつ、現実的な設定でアンラーニングの程度を正確に評価できない可能性がある。
(a) 忘れと保持集合は意味的に類似した内容を有する。
b) 保持セットのスクラッチからモデルを再訓練することは実用的でない、及び/又は
(c)モデル所有者は、LLM上で直接アンラーニングを行うことなく、アンラーニングメトリックを改善することができる。
本稿では,これらの制限を克服するために,堅牢なテキスト透かしを利用するWaterDrumと呼ばれるLLMのためのデータ中心の非学習指標を提案する。
また、LLMアンラーニングのための新しいベンチマークデータセットを導入し、類似したデータポイントのさまざまなレベルを含み、WaterDrumを使って未学習アルゴリズムを厳格に評価することができる。
私たちのコードはhttps://github.com/lulu008/WaterDrumで、新しいベンチマークデータセットはhttps://huggingface.co/datasets/Glow-AI/WaterDrum-Axでリリースされています。
関連論文リスト
- LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks [23.5632914682956]
大規模言語モデルアンラーニングは、安全性と制御モデル行動を保証する上で重要な課題となっている。
LLMのアンラーニングは、かなり小さなサブセット(コアセットとして機能する)で効果的に維持可能であることを示す。
これは、非常に低データ状態であっても、これらのベンチマークでのLLMアンラーニングが驚くほど容易に実行可能であることを示唆している。
論文 参考訳(メタデータ) (2025-04-14T12:38:37Z) - Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
アンラーニングが一般的なモデル能力に顕著な影響を与えていることを示す。
簡単な方法で5ショットのプロンプトやリフレーズを行うことで、未学習ベンチマークの精度が10倍以上に向上する可能性があることを示す。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
総合的な機械学習評価ベンチマークであるMUSEを提案する。
人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文 参考訳(メタデータ) (2024-07-08T23:47:29Z) - Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs [18.629717934007513]
SPUNGE(SPlit, UNlearn, MerGE)は,任意のアンラーニング手法を用いて有効性を増幅するフレームワークである。
我々はSPUNGEが最近の2つの非学習手法の性能を大幅に向上させることを実証的に実証した。
論文 参考訳(メタデータ) (2024-06-17T17:35:52Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Rapid Adaptation in Online Continual Learning: Are We Evaluating It
Right? [135.71855998537347]
オンライン連続学習(OCL)アルゴリズムの適応性を評価するための一般的な手法を,オンライン精度の指標を用いて再検討する。
空白のブラインド分類器でさえ、非現実的に高いオンライン精度を達成できるため、この指標は信頼できない。
既存のOCLアルゴリズムは、オンラインの精度も高いが、有用な情報の保持は不十分である。
論文 参考訳(メタデータ) (2023-05-16T08:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。