論文の概要: Reinforcement Unlearning via Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.20568v1
- Date: Wed, 28 Jan 2026 13:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.936555
- Title: Reinforcement Unlearning via Group Relative Policy Optimization
- Title(参考訳): グループ相対的政策最適化による強化アンラーニング
- Authors: Efstratios Zaradoukas, Bardh Prenkaj, Gjergji Kasneci,
- Abstract要約: PURGE(Policy Unlearning through Relative Group Erasure)は、未学習を検証可能な問題として定式化する新しい手法である。
提案手法は,SotA法と比較して目標単位のトークン使用率を最大46倍に削減すると同時に,流速を5.48%向上させる。
リアル・ワールド・ナレッジ・アンラーニング(RWKU)ベンチマークでは、PURGEは11%の非ラーニング効果を達成し、元のユーティリティの98%を保存している。
- 参考スコア(独自算出の注目度): 20.66330243194323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During pretraining, LLMs inadvertently memorize sensitive or copyrighted data, posing significant compliance challenges under legal frameworks like the GDPR and the EU AI Act. Fulfilling these mandates demands techniques that can remove information from a deployed model without retraining from scratch. Existing unlearning approaches attempt to address this need, but often leak the very data they aim to erase, sacrifice fluency and robustness, or depend on costly external reward models. We introduce PURGE (Policy Unlearning through Relative Group Erasure), a novel method grounded in the Group Relative Policy Optimization framework that formulates unlearning as a verifiable problem. PURGE uses an intrinsic reward signal that penalizes any mention of forbidden concepts, allowing safe and consistent unlearning. Our approach reduces token usage per target by up to a factor of 46 compared with SotA methods, while improving fluency by 5.48 percent and adversarial robustness by 12.02 percent over the base model. On the Real World Knowledge Unlearning (RWKU) benchmark, PURGE achieves 11 percent unlearning effectiveness while preserving 98 percent of original utility. PURGE shows that framing LLM unlearning as a verifiable task, enables more reliable, efficient, and scalable forgetting, suggesting a promising new direction for unlearning research that combines theoretical guarantees, improved safety, and practical deployment efficiency.
- Abstract(参考訳): 事前トレーニング中、LLMは機密データや著作権データを不注意に記憶し、GDPRやEU AI Actのような法的枠組みの下で、重大なコンプライアンス上の課題を提起する。
これらの委任事項をフルフィルするには、スクラッチからリトレーニングすることなく、デプロイされたモデルから情報を削除できる技術が必要である。
既存のアンラーニングアプローチは、このニーズに対処しようと試みるが、しばしば、消去、流用、堅牢性を犠牲にする、あるいは高価な外部報酬モデルに依存する、という目的のデータをリークする。
PURGE(Policy Unlearning through Relative Group Erasure)は,未学習を検証可能な問題として定式化するグループ相対政策最適化フレームワークを基盤とした新しい手法である。
PURGEは本質的な報酬信号を使用して、禁じられた概念の言及を罰し、安全で一貫した未学習を可能にする。
提案手法は,SotA法と比較して目標当たりのトークン使用率を最大46倍に削減すると同時に,フラレンシを5.48%改善し,ベースモデルに対して12.02%向上する。
リアル・ワールド・ナレッジ・アンラーニング(RWKU)ベンチマークでは、PURGEは11%の非ラーニング効果を達成し、元のユーティリティの98%を保存している。
PURGEは、LLMアンラーニングを検証可能なタスクとすることで、より信頼性が高く、効率的で、スケーラブルな忘れを可能とし、理論的保証、安全性の向上、実践的なデプロイメント効率を組み合わせたアンラーニング研究に期待できる新たな方向性を示唆している。
関連論文リスト
- Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization [72.20212909644017]
Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
論文 参考訳(メタデータ) (2025-11-20T17:58:04Z) - GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models [17.83305806604326]
GUARDは、データ属性を通じて学習と保持をガイドするフレームワークである。
適応的で一様でないアンラーニングウェイトをサンプルに割り当て、逆にプロキシ属性スコアに比例する。
我々はGUARDが従来の手法に匹敵するメトリクスを忘れずに保持を大幅に改善する厳密な理論的保証を提供する。
論文 参考訳(メタデータ) (2025-06-12T17:49:09Z) - RULE: Reinforcement UnLEarning Achieves Forget-Retain Pareto Optimality [24.299312059430704]
Unlearningは、スクラッチからトレーニングしたり、全体的なユーティリティを劣化させたりすることなく、モデルから特定の情報を選択的に削除するタスクである。
既存の手法は、しばしばデータセットを大規模に忘れ、保持し、不自然な応答、一般化の貧弱、破滅的なユーティリティ損失に悩まされる。
本稿では,非学習を拒絶境界最適化問題として定式化する効率的なフレームワークであるReinforcement UnLearning (RULE)を提案する。
論文 参考訳(メタデータ) (2025-06-08T14:38:39Z) - Privacy-Preserved Automated Scoring using Federated Learning for Educational Research [1.2556373621040728]
本稿では,教育評価の自動評価のための統合学習(FL)フレームワークを提案する。
我々は,2つの最先端FL手法と集中学習ベースラインに対して,我々のモデルをベンチマークする。
その結果,本モデルが最も精度が高い(94.5%)ことが示唆された。
論文 参考訳(メタデータ) (2025-03-12T19:06:25Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。