論文の概要: Layered Unlearning for Adversarial Relearning
- arxiv url: http://arxiv.org/abs/2505.09500v1
- Date: Wed, 14 May 2025 15:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.517157
- Title: Layered Unlearning for Adversarial Relearning
- Title(参考訳): 相互学習のための階層型アンラーニング
- Authors: Timothy Qian, Vinith Suriyakumar, Ashia Wilson, Dylan Hadfield-Menell,
- Abstract要約: 本研究では,言語モデルの振る舞いや表現をポストトレーニング法でどのように修正するかを検討する。
近年の研究では、学習後、特定の応答パターンを抑圧する浅い文脈依存回路'が誘導されることが示唆されている。
この仮説をテストするために、我々は未学習アルゴリズムLayered Unlearning (LU)を設計した。
LUは、データセット全体を復元するために、データのサブセットで再学習する能力を制限する。
- 参考スコア(独自算出の注目度): 4.7066636827902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our goal is to understand how post-training methods, such as fine-tuning, alignment, and unlearning, modify language model behavior and representations. We are particularly interested in the brittle nature of these modifications that makes them easy to bypass through prompt engineering or relearning. Recent results suggest that post-training induces shallow context-dependent ``circuits'' that suppress specific response patterns. This could be one explanation for the brittleness of post-training. To test this hypothesis, we design an unlearning algorithm, Layered Unlearning (LU), that creates distinct inhibitory mechanisms for a growing subset of the data. By unlearning the first $i$ folds while retaining the remaining $k - i$ at the $i$th of $k$ stages, LU limits the ability of relearning on a subset of data to recover the full dataset. We evaluate LU through a combination of synthetic and large language model (LLM) experiments. We find that LU improves robustness to adversarial relearning for several different unlearning methods. Our results contribute to the state-of-the-art of machine unlearning and provide insight into the effect of post-training updates.
- Abstract(参考訳): 我々のゴールは、微調整、アライメント、アンラーニングといったポストトレーニング手法がどのように言語モデルの振る舞いや表現を変更するかを理解することである。
私たちは特に、これらの修正の脆い性質に興味を持ち、迅速なエンジニアリングや再学習をバイパスしやすくしています。
近年,ポストトレーニングは,特定の応答パターンを抑える,文脈依存性の浅い「循環」を誘導することが示唆されている。
これはポストトレーニングの脆さの1つの説明かもしれない。
この仮説をテストするために、我々は、データの増大するサブセットに対して異なる阻害機構を作成する未学習アルゴリズム、Layered Unlearning (LU) を設計する。
最初の$i$ foldsをアンラーニングし、残りの$k - i$を$k$の$i$thで保持することで、LUはデータセット全体を復元するためにデータのサブセットで再学習する能力を制限する。
合成言語モデル(LLM)と大規模言語モデル(LLM)の併用によるLUの評価を行った。
LUは、いくつかの異なるアンラーニング手法において、敵対的再学習に対する堅牢性を向上させる。
この結果は,機械学習の最先端化に寄与し,学習後更新の効果に関する知見を提供する。
関連論文リスト
- ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - Multi-Objective Large Language Model Unlearning [3.372396620898397]
グラディエント・アセント(GA)は、対象データ上のモデルの予測確率を減少させるプロアクティブな方法である。
本稿では,多目的大規模言語モデル学習(MOLLM)アルゴリズムを提案する。
実験の結果,MLLM が SOTA GA をベースとした LLM アンラーニング法よりも非ラーニング効果とモデルユーティリティ保存の点で優れていたことが確認された。
論文 参考訳(メタデータ) (2024-12-29T09:35:56Z) - Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
アンラーニングが一般的なモデル能力に顕著な影響を与えていることを示す。
簡単な方法で5ショットのプロンプトやリフレーズを行うことで、未学習ベンチマークの精度が10倍以上に向上する可能性があることを示す。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - LLMs can learn self-restraint through iterative self-reflection [57.26854891567574]
大規模言語モデル(LLM)は、特定のトピックに関連する知識と不確実性に基づいて、その振る舞いを動的に適応できなければならない。
この適応的行動は、私たちが自己規制と呼ぶもので、教えるのは簡単ではない。
モデルが信頼している場合にのみ応答を生成できるようにするユーティリティ関数を考案する。
論文 参考訳(メタデータ) (2024-05-15T13:35:43Z) - Coded Machine Unlearning [34.08435990347253]
学習フェーズの前にデータセットを線形に符号化する符号化学習プロトコルを提案する。
また, 符号化学習モデルのアンラーニングプロトコルについて述べるとともに, 完全なアンラーニングを実現するための提案プロトコルの成功について考察する。
論文 参考訳(メタデータ) (2020-12-31T17:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。