Fugu-MT 論文翻訳(概要): An Adversarial Perspective on Machine Unlearning for AI Safety

論文の概要: An Adversarial Perspective on Machine Unlearning for AI Safety

arxiv url: http://arxiv.org/abs/2409.18025v3
Date: Fri, 08 Nov 2024 22:06:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.107611
Title: An Adversarial Perspective on Machine Unlearning for AI Safety
Title（参考訳）: AI安全のためのマシン・アンラーニングの敵対的展望
Authors: Jakub Łucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tramèr, Javier Rando,
Abstract要約: この作業は、アンラーニングと従来のトレーニング後の安全性の根本的な違いに挑戦する。既存のjailbreakメソッドは、これまで未学習に対して効果がないと報告されていたが、慎重に適用した場合に成功できることを実証する。例えば、アクティベーション空間における10の無関係な例を微調整したり、特定の方向を除去することで、RMUで編集されたモデルに対して最も危険な能力を回復できることを示す。
参考スコア（独自算出の注目度）: 22.639683142004372
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are finetuned to refuse questions about hazardous knowledge, but these protections can often be bypassed. Unlearning methods aim at completely removing hazardous capabilities from models and make them inaccessible to adversaries. This work challenges the fundamental differences between unlearning and traditional safety post-training from an adversarial perspective. We demonstrate that existing jailbreak methods, previously reported as ineffective against unlearning, can be successful when applied carefully. Furthermore, we develop a variety of adaptive methods that recover most supposedly unlearned capabilities. For instance, we show that finetuning on 10 unrelated examples or removing specific directions in the activation space can recover most hazardous capabilities for models edited with RMU, a state-of-the-art unlearning method. Our findings challenge the robustness of current unlearning approaches and question their advantages over safety training.
Abstract（参考訳）: 大きな言語モデルは、有害な知識に関する質問を拒否するために微調整されているが、これらの保護はしばしばバイパスされる。アンラーニング手法は、モデルから有害な能力を完全に取り除き、敵に近づかないようにすることを目的としている。この研究は、非学習と従来の訓練後の安全性の基本的な相違に敵対的な観点から挑戦する。既存のjailbreakメソッドは、これまで未学習に対して効果がないと報告されていたが、慎重に適用した場合に成功できることを実証する。さらに、最も未学習と思われる能力を回復する様々な適応手法を開発した。例えば、アクティベーション空間における10の非関連例の微調整や特定の方向の除去は、最先端の未学習手法であるRMUで編集されたモデルに対して最も有害な能力を回復できることを示す。我々の研究は、現在の未学習アプローチの堅牢性に挑戦し、安全性トレーニングよりも彼らの優位性に疑問を投げかけている。

関連論文リスト

Robust LLM Unlearning with MUDMAN: Meta-Unlearning with Disruption Masking And Normalization [0.562479170374811]
言語モデルは、広範囲の安全性を調整した後でも、危険な知識とスキルを保持することができる。近年の研究では、特別な未学習の方法であっても容易に逆転できることが示されている。 Disruption Maskingは、ウェイトを更新するだけを可能にするテクニックです。
論文参考訳（メタデータ） (2025-06-14T12:49:51Z)
Unlearning vs. Obfuscation: Are We Truly Removing Knowledge? [15.964825460186393]
難読化と難読化を正式に区別し,探索に基づく評価フレームワークを導入する。自動生成された複数質問に対するモデル予測分布をフラット化する新しい未学習手法であるDF-MCQを提案する。実験の結果,DF-MCQは90%以上の拒絶率とランダムな選択レベルの不確実性で未学習を実現することがわかった。
論文参考訳（メタデータ） (2025-05-05T14:21:08Z)
Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models [10.041289551532804]
本稿では,ロバスト・アンラーニングの概念を導入し,モデルの再学習と敵の回復に対する抵抗性を確実にする。アンラーニング手法がこのセキュリティ基準を満たしているかどうかを実証的に評価するために,アンラーニングマッピング攻撃(UMA)を提案する。 UMAは、敵クエリを使って忘れられたトレースのモデルを積極的に探索する。
論文参考訳（メタデータ） (2025-04-21T01:56:15Z)
Open Problems in Machine Unlearning for AI Safety [61.43515658834902]
特定の種類の知識を選択的に忘れたり、抑圧したりするマシンアンラーニングは、プライバシとデータ削除タスクの約束を示している。本稿では,アンラーニングがAI安全性の包括的ソリューションとして機能することを防止するための重要な制約を特定する。
論文参考訳（メタデータ） (2025-01-09T03:59:10Z)
OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文参考訳（メタデータ） (2024-12-21T18:04:31Z)
Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。 LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文参考訳（メタデータ） (2024-08-20T09:36:04Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
From Theft to Bomb-Making: The Ripple Effect of Unlearning in Defending Against Jailbreak Attacks [85.84979847888157]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に弱いことが知られている。 LLMは、学習期間中に明示的に導入されなかった有害な知識を暗黙的に引き起こすことができる。我々は、この現象を実証的に検証し、未学習の手法でアタック成功率を下げることを可能にする。
論文参考訳（メタデータ） (2024-07-03T07:14:05Z)
UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。未学習の概念を導入し、未学習の知識を文脈内で再導入する。我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文参考訳（メタデータ） (2024-06-27T10:24:35Z)
Improving Alignment and Robustness with Circuit Breakers [40.4558948850276]
本稿では,「サーキットブレーカー」による有害な出力に応答するモデルを中断する手法を提案する。トレーニングの拒絶と敵のトレーニングの代替として、サーキットブレーキングは有害なアウトプットの原因となる表現を直接制御する。我々は、我々のアプローチをAIエージェントに拡張し、攻撃されているときの有害な行動の率を大幅に低下させることを実証する。
論文参考訳（メタデータ） (2024-06-06T17:57:04Z)
Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models [64.5204594279587]
安全性を優先するモデルでは、ユーザがエンゲージメントやアシストを減らし、利便性の優先順位付けが害をもたらす可能性がある。大規模言語モデルにおける両方の属性を制御することにより,多様なユースケースにおける安全性と利便性のバランスをとることを提案する。
論文参考訳（メタデータ） (2024-04-01T17:59:06Z)
Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。バックドア攻撃は訓練中にモデルに悪意ある行動を埋め込む我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文参考訳（メタデータ） (2024-03-24T18:33:15Z)
Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文参考訳（メタデータ） (2023-10-16T14:59:10Z)
Inspect, Understand, Overcome: A Survey of Practical Methods for AI Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。近年,これらの安全対策を目的とした最先端技術動物園が出現している。本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文参考訳（メタデータ） (2021-04-29T09:54:54Z)
Adversarial Training is Not Ready for Robot Learning [55.493354071227174]
対人訓練は,ノルム有界摂動に耐性のあるディープラーニングモデルを訓練する有効な方法である。敵訓練により得られたニューラルコントローラが3種類の欠陥を受けることを理論的および実験的に示す。この結果から, ロボット学習にはまだ対応できていないことが示唆された。
論文参考訳（メタデータ） (2021-03-15T07:51:31Z)
Modeling Penetration Testing with Reinforcement Learning Using Capture-the-Flag Challenges: Trade-offs between Model-free Learning and A Priori Knowledge [0.0]
侵入テストは、システムに対する攻撃をシミュレートしてシステムのセキュリティを評価するためのセキュリティエクササイズである。本稿では,フラッグハックの難しさをとらえる形で表現された,簡易な浸透試験問題に焦点を当てる。エージェントに提供可能な事前知識の異なる形式に依存することで、この課題が緩和される可能性を示す。
論文参考訳（メタデータ） (2020-05-26T11:23:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。