論文の概要: An Adversarial Perspective on Machine Unlearning for AI Safety
- arxiv url: http://arxiv.org/abs/2409.18025v3
- Date: Fri, 08 Nov 2024 22:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:38.038782
- Title: An Adversarial Perspective on Machine Unlearning for AI Safety
- Title(参考訳): AI安全のためのマシン・アンラーニングの敵対的展望
- Authors: Jakub Łucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tramèr, Javier Rando,
- Abstract要約: この作業は、アンラーニングと従来のトレーニング後の安全性の根本的な違いに挑戦する。
既存のjailbreakメソッドは、これまで未学習に対して効果がないと報告されていたが、慎重に適用した場合に成功できることを実証する。
例えば、アクティベーション空間における10の無関係な例を微調整したり、特定の方向を除去することで、RMUで編集されたモデルに対して最も危険な能力を回復できることを示す。
- 参考スコア(独自算出の注目度): 22.639683142004372
- License:
- Abstract: Large language models are finetuned to refuse questions about hazardous knowledge, but these protections can often be bypassed. Unlearning methods aim at completely removing hazardous capabilities from models and make them inaccessible to adversaries. This work challenges the fundamental differences between unlearning and traditional safety post-training from an adversarial perspective. We demonstrate that existing jailbreak methods, previously reported as ineffective against unlearning, can be successful when applied carefully. Furthermore, we develop a variety of adaptive methods that recover most supposedly unlearned capabilities. For instance, we show that finetuning on 10 unrelated examples or removing specific directions in the activation space can recover most hazardous capabilities for models edited with RMU, a state-of-the-art unlearning method. Our findings challenge the robustness of current unlearning approaches and question their advantages over safety training.
- Abstract(参考訳): 大きな言語モデルは、有害な知識に関する質問を拒否するために微調整されているが、これらの保護はしばしばバイパスされる。
アンラーニング手法は、モデルから有害な能力を完全に取り除き、敵に近づかないようにすることを目的としている。
この研究は、非学習と従来の訓練後の安全性の基本的な相違に敵対的な観点から挑戦する。
既存のjailbreakメソッドは、これまで未学習に対して効果がないと報告されていたが、慎重に適用した場合に成功できることを実証する。
さらに、最も未学習と思われる能力を回復する様々な適応手法を開発した。
例えば、アクティベーション空間における10の非関連例の微調整や特定の方向の除去は、最先端の未学習手法であるRMUで編集されたモデルに対して最も有害な能力を回復できることを示す。
我々の研究は、現在の未学習アプローチの堅牢性に挑戦し、安全性トレーニングよりも彼らの優位性に疑問を投げかけている。
関連論文リスト
- Open Problems in Machine Unlearning for AI Safety [61.43515658834902]
特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。
本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
論文 参考訳(メタデータ) (2025-01-09T03:59:10Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Mitigating Unsafe Feedback with Learning Constraints [26.872318173182414]
安全に配慮した大規模言語モデルは有害なテキストを生成することで、安全でない行動空間を探索できることを示す。
我々は、学習制約として有効であるかどうかを評価するために、有害な微調整防衛を「単純」と「明示」の両方に適応させる。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Improving Alignment and Robustness with Circuit Breakers [40.4558948850276]
本稿では,「サーキットブレーカー」による有害な出力に応答するモデルを中断する手法を提案する。
トレーニングの拒絶と敵のトレーニングの代替として、サーキットブレーキングは有害なアウトプットの原因となる表現を直接制御する。
我々は、我々のアプローチをAIエージェントに拡張し、攻撃されているときの有害な行動の率を大幅に低下させることを実証する。
論文 参考訳(メタデータ) (2024-06-06T17:57:04Z) - Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models [64.5204594279587]
安全性を優先するモデルでは、ユーザがエンゲージメントやアシストを減らし、利便性の優先順位付けが害をもたらす可能性がある。
大規模言語モデルにおける両方の属性を制御することにより,多様なユースケースにおける安全性と利便性のバランスをとることを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:06Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。