論文の概要: Align-then-Unlearn: Embedding Alignment for LLM Unlearning
- arxiv url: http://arxiv.org/abs/2506.13181v1
- Date: Mon, 16 Jun 2025 07:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.69706
- Title: Align-then-Unlearn: Embedding Alignment for LLM Unlearning
- Title(参考訳): Align-then-Unlearn:LLMアンラーニングのための埋め込みアライメント
- Authors: Philipp Spohn, Leander Girrbach, Jessica Bader, Zeynep Akata,
- Abstract要約: Unlearningは、個人情報や著作権のあるコンテンツなど、訓練されたモデルから特定のデータを選択的に取り除こうとしている。
セマンティック埋め込み空間においてアンラーニングを行う新しいフレームワークであるAlign-then-Unlearnを提案する。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language models (LLMs) are trained on massive datasets, they have raised significant privacy and ethical concerns due to their potential to inadvertently retain sensitive information. Unlearning seeks to selectively remove specific data from trained models, such as personal information or copyrighted content. Current approaches targeting specific output sequences at the token level often fail to achieve complete forgetting and remain susceptible to prompt rephrasing. We propose Align-then-Unlearn, a novel framework that performs unlearning in the semantic embedding space rather than directly on output tokens. Align-then-Unlearn first augments the LLM with an embedding prediction module trained to anticipate future context representations. Unlearning is then achieved by fine-tuning the model to minimize the similarity between these predicted embeddings and a target embedding that represents the concept to be removed. Initial results show that Align-then-Unlearn effectively removes targeted knowledge with minimal degradation in overall model utility. These findings suggest that embedding-based unlearning offers a promising and robust approach to removing conceptual knowledge. Our code is available at https://github.com/ExplainableML/align-then-unlearn.
- Abstract(参考訳): 大きな言語モデル(LLM)が大規模なデータセットでトレーニングされているため、機密情報を不注意に保持する可能性があるため、プライバシと倫理的懸念が高まっている。
Unlearningは、個人情報や著作権のあるコンテンツなど、訓練されたモデルから特定のデータを選択的に取り除こうとしている。
トークンレベルでの特定の出力シーケンスをターゲットとする現在のアプローチは、完全に忘れることに失敗することが多く、リフレージングを促さなければならない。
提案するAlign-then-Unlearnは,出力トークンを直接ではなくセマンティック埋め込み空間でアンラーニングを行う新しいフレームワークである。
Align-then-Unlearnは、将来のコンテキスト表現を予測するためにトレーニングされた埋め込み予測モジュールでLLMを拡張した。
そして、予測された埋め込みと削除される概念を表すターゲット埋め込みの類似性を最小化するためにモデルを微調整することで、学習が達成される。
最初の結果から、Align-then-Unlearnは、モデル全体の実用性において最小限の劣化を伴う標的知識を効果的に除去することを示した。
これらの結果は,埋め込み型アンラーニングが概念知識の除去に有望かつ堅牢なアプローチをもたらすことを示唆している。
私たちのコードはhttps://github.com/ExplainableML/align-then-unlearn.comで利用可能です。
関連論文リスト
- GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection [36.38245533018162]
大規模言語モデル(LLM)は、多様なドメインにまたがる膨大な知識を記憶する強力な能力を示している。
既存の未学習の取り組みは、通常、モデルを忘れデータ、データ保持、キャリブレーションモデルといったリソースで微調整する。
本稿では,LLM生成時の動的アンラーニングを実現するフレームワークであるAdaptive Restriction and Detection (GUARD) による生成時アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:26:58Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
総合的な機械学習評価ベンチマークであるMUSEを提案する。
人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文 参考訳(メタデータ) (2024-07-08T23:47:29Z) - Offset Unlearning for Large Language Models [49.851093293780615]
delta-Unlearningは、ブラックボックスLLMのためのオフセットのアンラーニングフレームワークである。
デルタアンラーニングは、一般的な対物スコープタスクにおいて、類似またはより強い性能を維持しながら、効果的にターゲットデータを解放できることを示す。
論文 参考訳(メタデータ) (2024-04-17T03:39:51Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。