De-attribute to Forget for LLM Unlearning
Abstractの概要
本論文は、予測損失ベースの目的関数をデータ非属性化の目的関数に置き換える、大規模言語モデルのアンラーニングフレームワーク「DareU」を提案している。忘却対象のサンプルの損失を最大化する代わりに、生成された応答の忘却データ所有者に対する属性化をゼロに近づけることを目的としており、この目標値の方がより正確で過剰忘却を起こしにくいという主張に基づいている。DareUは強化学習を通じてこのアイデアを実装しており、軽量な所有者分類モデルからの属性スコアを報酬シグナルとしてPPOを用いつつ、モデルの有用性を維持するための保持セット蒸留正規化を追加している。Llama2-7BおよびQwen3-8Bを用いたTOFUおよびArXivでの実験において、DareUを再学習およびいくつかのアンラーニングのベースラインと比較している。
新規性
本論文の主要な新規性は、LLMのアンラーニングを予測損失の操作ではなく、データの非属性化として定式化している点である。また、著者らの知る限り、データ属性スコアを強化学習の報酬として使用する最初のアンラーニングフレームワークを提示しており、PPOと効率的な属性分類器の近似によって運用されている。
成果
TOFUおよびArXiv全体で、DareUは忘却の質と維持された有用性との間で最高の全体的バランスを達成し、評価されたモデルとデータセット全体で最も高いTug-of-Warスコアを獲得したと報告されている。TOFUでは、比較的強い保持・テスト性能を維持しながら、再学習に最も近い忘却セットの挙動に到達し、より困難なArXivの設定では、強いベースラインよりもモデルの有用性を維持しつつも、忘却において競争力を保っている。追加の分析では、異なる属性関数でも同様の挙動が示され、いくつかのアブレーションやストレステストの設定下での堅牢性も確認されたが、この手法は単純な損失ベースのアプローチよりも計算コストが高いことが示されている。
論文の注目点
- DareUは、アンラーニングをモデル出力の忘却データ所有者への属性化を最小限に抑えることと定義し、忘却セットの損失を最大化する代わりに、一貫した目標値であるゼロを目指す。
- この手法は、属性から導出された報酬を用いるPPOと保持セットの蒸留正規化を利用し、属性はオフラインで学習された軽量な分類器によって効率的に近似される。
- TOFUとArXivでの実証比較により、既存のベースラインよりも優れた忘却と有用性のトレードオフが示されているが、単純なアンラーニング手法よりも高い計算コストが発生する。