論文の概要: GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.10946v2
- Date: Wed, 22 Oct 2025 02:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:07.832697
- Title: GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models
- Title(参考訳): GUARD: 大規模言語モデルのためのデータ属性による学習と維持のガイド
- Authors: Peizhi Niu, Evelyn Ma, Huiting Zhou, Duo Zhou, Huan Zhang, S. Rasoul Etesami, Olgica Milenkovic,
- Abstract要約: GUARDは、データ属性を通じて学習と保持をガイドするフレームワークである。
適応的で一様でないアンラーニングウェイトをサンプルに割り当て、逆にプロキシ属性スコアに比例する。
我々はGUARDが従来の手法に匹敵するメトリクスを忘れずに保持を大幅に改善する厳密な理論的保証を提供する。
- 参考スコア(独自算出の注目度): 17.83305806604326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlearning in large language models is becoming increasingly important due to regulatory compliance, copyright protection, and privacy concerns. However, a key challenge in LLM unlearning is unintended forgetting, where the removal of specific data inadvertently impairs the utility of the model and its retention of valuable, desired information. While prior work has primarily focused on architectural innovations, the influence of data-level factors on unlearning performance remains underexplored. As a result, existing methods often suffer from degraded retention when forgetting high-impact data. To address this problem, we propose GUARD, a novel framework for Guided Unlearning And Retention via Data attribution. At its core, GUARD introduces a lightweight proxy data attribution metric tailored for LLM unlearning, which quantifies the alignment between the Forget and Retain sets while remaining computationally efficient. Building on this, we design a novel unlearning objective that assigns adaptive, nonuniform unlearning weights to samples, inversely proportional to their proxy attribution scores. Through such a reallocation of unlearning power, GUARD mitigates unintended retention loss. We also provide rigorous theoretical guarantees that GUARD significantly improves retention while maintaining forgetting metrics comparable to prior methods. Extensive experiments on the TOFU and MUSE benchmarks across multiple LLM architectures demonstrate that GUARD reduces utility sacrifice on the TOFU Retain Set by up to 194.92 percent in terms of Truth Ratio when forgetting 10 percent of the training data, and improves knowledge retention on the MUSE NEWS Retain Set by 16.20 percent, with comparable or very moderate increases in privacy loss compared to state-of-the-art methods.
- Abstract(参考訳): 規制の遵守、著作権保護、プライバシーの懸念などにより、大規模言語モデルの未学習がますます重要になっている。
しかし、LLMアンラーニングにおける重要な課題は、特定のデータの削除が、モデルの有用性と、価値ある、望まれる情報の保持を故意に損なうことを忘れることである。
これまでの作業は主にアーキテクチャのイノベーションに重点を置いてきたが、データレベルの要因が未学習のパフォーマンスに与える影響は、まだ解明されていない。
その結果、既存の手法は、高インパクトデータを忘れる際に、劣化した保持に悩まされることが多い。
この問題に対処するために,GUARDを提案する。GUARDはデータ属性によるガイド付き学習と保持のための新しいフレームワークである。
GUARDは、LLMアンラーニングに適した軽量なプロキシデータ属性メトリックを導入し、計算効率を保ちながら、ForgetとRetainセット間のアライメントを定量化する。
これに基づいて,適応的,非一様な未学習重みをサンプルに割り当てる新しい未学習目標を設計し,それらのプロキシ属性スコアに逆比例する。
このような非学習力のリアルタイム化を通じて、GUARDは意図しない保持損失を緩和する。
また,GUARDが従来手法に匹敵する指標を忘れつつ,保持率を大幅に向上させるという厳密な理論的保証も提供する。
複数のLLMアーキテクチャにわたるTOFUおよびMUSEベンチマークの大規模な実験により、GUARDはトレーニングデータの10%を忘れた場合、TOFU保持セットの実用上の犠牲を最大194.2%削減し、MUSE NEWS保持セットの知識保持を16.20%改善した。
関連論文リスト
- BLUR: A Bi-Level Optimization Approach for LLM Unlearning [105.98410883830596]
未学習問題の階層構造をモデル化することが重要であると論じる。
本稿では,より優れた性能を実現する新しいアルゴリズムであるBi-Level UnleaRning(textttBLUR)を提案する。
論文 参考訳(メタデータ) (2025-06-09T19:23:05Z) - Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [7.566515311806724]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。
既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。
制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文 参考訳(メタデータ) (2025-06-05T17:55:23Z) - GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection [36.38245533018162]
大規模言語モデル(LLM)は、多様なドメインにまたがる膨大な知識を記憶する強力な能力を示している。
既存の未学習の取り組みは、通常、モデルを忘れデータ、データ保持、キャリブレーションモデルといったリソースで微調整する。
本稿では,LLM生成時の動的アンラーニングを実現するフレームワークであるAdaptive Restriction and Detection (GUARD) による生成時アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:26:58Z) - LLM Unlearning via Loss Adjustment with Only Forget Data [20.310423152885217]
これらの問題に対処する"フラットな"損失調整アプローチであるLos AjustmenT (FLAT) のみを導入する。
実験結果から,本手法は既存手法と比較して,非学習性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-10-14T23:43:33Z) - Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMの堅牢かつ効率的なアンラーニングを可能にする新しいフレームワークであるLoKUを提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models [37.172662930947446]
言語モデル(LM)は、重大なプライバシーリスクを示す抽出攻撃に対して潜在的に脆弱である。
本稿では,事前学習したLMからターゲットトークンシーケンスを効果的に忘れる新しい未学習手法である,最適パラメータによるプライバシ保護(POP)を提案する。
POPは、9つの分類と4つのダイアログベンチマークにまたがって、保留後の顕著なパフォーマンスを示し、最先端を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-06-20T08:12:49Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Ungeneralizable Examples [70.76487163068109]
学習不能なデータを作成するための現在のアプローチには、小さくて特殊なノイズが組み込まれている。
学習不能データの概念を条件付きデータ学習に拡張し、textbfUntextbf Generalizable textbfExamples (UGEs)を導入する。
UGEは認証されたユーザに対して学習性を示しながら、潜在的なハッカーに対する非学習性を維持している。
論文 参考訳(メタデータ) (2024-04-22T09:29:14Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。