論文の概要: RULE: Reinforcement UnLEarning Achieves Forget-Retain Pareto Optimality
- arxiv url: http://arxiv.org/abs/2506.07171v1
- Date: Sun, 08 Jun 2025 14:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.699567
- Title: RULE: Reinforcement UnLEarning Achieves Forget-Retain Pareto Optimality
- Title(参考訳): RULE:強化を解き放つことで、パレートの最適性を忘れる
- Authors: Chenlong Zhang, Zhuoran Jin, Hongbang Yuan, Jiaheng Wei, Tong Zhou, Kang Liu, Jun Zhao, Yubo Chen,
- Abstract要約: Unlearningは、スクラッチからトレーニングしたり、全体的なユーティリティを劣化させたりすることなく、モデルから特定の情報を選択的に削除するタスクである。
既存の手法は、しばしばデータセットを大規模に忘れ、保持し、不自然な応答、一般化の貧弱、破滅的なユーティリティ損失に悩まされる。
本稿では,非学習を拒絶境界最適化問題として定式化する効率的なフレームワークであるReinforcement UnLearning (RULE)を提案する。
- 参考スコア(独自算出の注目度): 24.299312059430704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread deployment of Large Language Models (LLMs) trained on massive, uncurated corpora has raised growing concerns about the inclusion of sensitive, copyrighted, or illegal content. This has led to increasing interest in LLM unlearning: the task of selectively removing specific information from a model without retraining from scratch or degrading overall utility. However, existing methods often rely on large-scale forget and retain datasets, and suffer from unnatural responses, poor generalization, or catastrophic utility loss. In this work, we propose Reinforcement UnLearning (RULE), an efficient framework that formulates unlearning as a refusal boundary optimization problem. RULE is trained with a small portion of the forget set and synthesized boundary queries, using a verifiable reward function that encourages safe refusal on forget--related queries while preserving helpful responses on permissible inputs. We provide both theoretical and empirical evidence demonstrating the effectiveness of RULE in achieving targeted unlearning without compromising model utility. Experimental results show that, with only $12%$ forget set and $8%$ synthesized boundary data, RULE outperforms existing baselines by up to $17.5%$ forget quality and $16.3%$ naturalness response while maintaining general utility, achieving forget--retain Pareto optimality. Remarkably, we further observe that RULE improves the naturalness of model outputs, enhances training efficiency, and exhibits strong generalization ability, generalizing refusal behavior to semantically related but unseen queries.
- Abstract(参考訳): 大規模で未処理のコーパスで訓練されたLarge Language Models (LLM) の広範な展開は、機密性、著作権、違法なコンテンツを含むことへの懸念を高めている。
モデルから特定の情報を選択的に削除するタスクは、スクラッチからリトレーニングしたり、全体的なユーティリティを劣化させたりせずに済む。
しかし、既存の手法はデータセットを大規模に忘れたり保存したりすることを頼りにし、不自然な応答、一般化の貧弱、破滅的なユーティリティ損失に悩まされる。
本研究では,非学習を拒絶境界最適化問題として定式化する効率的なフレームワークであるReinforcement UnLearning (RULE)を提案する。
RULEは,学習対象未学習の学習において,モデルユーティリティを損なうことなく有効性を示す理論的および実証的な証拠を提示すると共に,既存のベースラインを最大17.5%,自然性応答を最大16.3%で上回り,汎用性を維持しつつ,既存のベースラインを最大17.5%で上回ることを示す。
さらに、RULEはモデル出力の自然性を改善し、訓練効率を向上し、強い一般化能力を示し、意味的に関連があるが目に見えないクエリへの拒否動作を一般化する。
関連論文リスト
- The Hallucination Tax of Reinforcement Finetuning [11.558277688244354]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)の推論能力を高めるための標準アプローチとなっている。
我々は, RFT の批判的副作用について検討し, 幻覚税とはすなわち, モデルが幻覚応答を確実に生成する原因となる拒絶行動の悪化について述べる。
以上の結果から,標準RFTトレーニングはモデル拒絶率を80%以上削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-20T06:36:45Z) - GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection [36.38245533018162]
大規模言語モデル(LLM)は、多様なドメインにまたがる膨大な知識を記憶する強力な能力を示している。
既存の未学習の取り組みは、通常、モデルを忘れデータ、データ保持、キャリブレーションモデルといったリソースで微調整する。
本稿では,LLM生成時の動的アンラーニングを実現するフレームワークであるAdaptive Restriction and Detection (GUARD) による生成時アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:26:58Z) - GRAIT: Gradient-Driven Refusal-Aware Instruction Tuning for Effective Hallucination Mitigation [62.63014905981601]
Refusal-Aware Instruction Tuning (RAIT) は、Large Language Models (LLM) を強化することを目的としている。
効果的なRAITは、幻覚を最小化するために、未知の質問を効果的に拒否すること、正しく答えられる質問が拒否されないように過度に拒否すること、の2つの主要な課題に対処しなければならない。
GraITは幻覚を効果的に最小化するために勾配駆動型サンプル選択を採用し、(2)微調整中に適応的な重み付け機構を導入し、過剰な拒絶のリスクを低減する。
論文 参考訳(メタデータ) (2025-02-09T14:11:30Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Alternate Preference Optimization for Unlearning Factual Knowledge in Large Language Models [2.0962367975513496]
機械学習は、特定のトレーニングデータの影響をモデルから効率的に排除することを目的としている。
既存の未学習手法は, 無視集合に関連する応答を抑制するために, 負のフィードバックのみに頼っている。
本稿では,AltPO(Alternate Preference Optimization)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T13:05:07Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。