Fugu-MT 論文翻訳(概要): Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models

論文の概要: Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models

arxiv url: http://arxiv.org/abs/2408.10682v1
Date: Tue, 20 Aug 2024 09:36:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 14:24:42.780756
Title: Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models
Title（参考訳）: ロバスト知識の未学習に向けて--大規模言語モデルにおける未学習ロバスト性の評価と改善のための支援フレームワーク
Authors: Hongbang Yuan, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao,
Abstract要約: 我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。 LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
参考スコア（独自算出の注目度）: 19.015202590038996
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM have achieved success in many fields but still troubled by problematic content in the training corpora. LLM unlearning aims at reducing their influence and avoid undesirable behaviours. However, existing unlearning methods remain vulnerable to adversarial queries and the unlearned knowledge resurfaces after the manually designed attack queries. As part of a red-team effort to proactively assess the vulnerabilities of unlearned models, we design Dynamic Unlearning Attack (DUA), a dynamic and automated framework to attack these models and evaluate their robustness. It optimizes adversarial suffixes to reintroduce the unlearned knowledge in various scenarios. We find that unlearned knowledge can be recovered in $55.2\%$ of the questions, even without revealing the unlearned model's parameters. In response to this vulnerability, we propose Latent Adversarial Unlearning (LAU), a universal framework that effectively enhances the robustness of the unlearned process. It formulates the unlearning process as a min-max optimization problem and resolves it through two stages: an attack stage, where perturbation vectors are trained and added to the latent space of LLMs to recover the unlearned knowledge, and a defense stage, where previously trained perturbation vectors are used to enhance unlearned model's robustness. With our LAU framework, we obtain two robust unlearning methods, AdvGA and AdvNPO. We conduct extensive experiments across multiple unlearning benchmarks and various models, and demonstrate that they improve the unlearning effectiveness by over $53.5\%$, cause only less than a $11.6\%$ reduction in neighboring knowledge, and have almost no impact on the model's general capabilities.
Abstract（参考訳）: LLMは多くの分野で成功しているが、トレーニングコーパスにおける問題のある内容に悩まされている。 LLMアンラーニングは、その影響を減らし、望ましくない行動を避けることを目的としている。しかし、既存の未学習手法は、手動で設計した攻撃クエリの後に、敵のクエリや未学習の知識が再浮上することに対して脆弱なままである。未学習モデルの脆弱性を積極的に評価する赤チームの取り組みの一環として、動的で自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計し、これらのモデルを攻撃し、堅牢性を評価する。敵の接尾辞を最適化し、様々なシナリオにおいて未学習の知識を再導入する。未学習のモデルのパラメータを明らかにしなくても、未学習の知識は5,5.2 %$の質問で回収できる。この脆弱性に対応するために、未学習プロセスの堅牢性を効果的に向上する普遍的なフレームワークであるLatent Adversarial Unlearning (LAU)を提案する。学習されていない過程を最小限の最適化問題として定式化し、乱れベクトルを訓練してLLMの潜在空間に追加する攻撃段階と、未学習モデルの堅牢性を高めるために以前に訓練された摂動ベクトルを使用する防衛段階の2段階で解決する。 LAUフレームワークでは,AdvGAとAdvNPOの2つの頑健なアンラーニング手法を得た。複数のアンラーニングベンチマークやさまざまなモデルにまたがって広範な実験を行い、学習効率を53.5\%以上改善し、近隣の知識を11.6\%以下に減らし、モデルの一般的な機能にほとんど影響を与えないことを実証した。

関連論文リスト

Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness [30.596695293390415]
補間近似測定(Interpolated Approximate Measurement, IAM)は、非学習推論用に設計されたフレームワークである。 IAMは、クエリされたサンプルに対するモデルの一般化適合行動ギャップを補間することにより、サンプルレベルの未学習完全性を定量化する。 IAMを最近の近似アンラーニングアルゴリズムに適用し、オーバーアンラーニングとアンダーアンラーニングの両方のリスクを明らかにする。
論文参考訳（メタデータ） (2025-06-06T14:22:18Z)
Keeping an Eye on LLM Unlearning: The Hidden Risk and Remedy [36.19634262653306]
本稿では、微調整に基づく未学習における重大な脆弱性を明らかにする。悪意のあるユーザは操作済みの忘れた要求を作成でき、それをひそかにモデルの有用性を損なうことができる。本研究では、スコープ項を学習対象に導入する軽量化として、スコープ認識型アンラーニング(SU)を提案する。
論文参考訳（メタデータ） (2025-05-31T02:57:24Z)
UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。 UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T15:53:28Z)
Towards LLM Unlearning Resilient to Relearning Attacks: A Sharpness-Aware Minimization Perspective and Beyond [41.3029262040131]
再学習攻撃に対して未学習モデルを堅牢化する方法について検討する。解析の結果,スムーズさの最適化が再学習攻撃の軽減に重要な役割を担っていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-07T23:03:55Z)
When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge? [15.318301783084681]
大規模言語モデル(LLM)は、トレーニング中に機密情報や有害なコンテンツを不注意に学習し、保持することができる。本稿では,RAG(Retrieval-Augmented Generation)技術に基づく軽量なアンラーニングフレームワークを提案する。われわれはChatGPT, Gemini, Llama-2-7b-chat-hf, PaLM 2 など,オープンソースおよびクローズドソースモデルの広範な実験を通じてフレームワークを評価する。
論文参考訳（メタデータ） (2024-10-20T03:51:01Z)
A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。 LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文参考訳（メタデータ） (2024-10-10T16:56:05Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文参考訳（メタデータ） (2024-06-29T17:16:04Z)
UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。未学習の概念を導入し、未学習の知識を文脈内で再導入する。我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文参考訳（メタデータ） (2024-06-27T10:24:35Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Large Language Model Unlearning via Embedding-Corrupted Prompts [10.889859281637406]
大規模言語モデルのための軽量なアンラーニングフレームワークである textbfEmbedding-COrrupted (ECO) Prompts を提案する。推論中に未学習の状態を識別し、忘れるプロンプトを保護するためにプロンプト分類器を用いて強制する。その結果, 学習対象を満足させるだけでなく, 忘れることを意図したデータに基づいて訓練されたことのないモデルから得られる出力を, より正確に近似できることがわかった。
論文参考訳（メタデータ） (2024-06-12T06:56:20Z)
Offset Unlearning for Large Language Models [49.851093293780615]
delta-Unlearningは、ブラックボックスLLMのためのオフセットのアンラーニングフレームワークである。デルタアンラーニングは、一般的な対物スコープタスクにおいて、類似またはより強い性能を維持しながら、効果的にターゲットデータを解放できることを示す。
論文参考訳（メタデータ） (2024-04-17T03:39:51Z)
Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文参考訳（メタデータ） (2024-02-13T20:51:58Z)
Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:35:59Z)
A Duty to Forget, a Right to be Assured? Exposing Vulnerabilities in Machine Unlearning Services [31.347825826778276]
機械学習(ML)における未学習サービスによる潜在的な脅威を探究する。オーバー・アンラーニングを利用してトレードオフバランスに与える影響を計測する2つの戦略を提案する。その結果,両戦略が未学習シナリオにおけるモデルの有効性を損なう可能性が示唆された。
論文参考訳（メタデータ） (2023-09-15T08:00:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。