論文の概要: Improving the Robustness of Representation Misdirection for Large Language Model Unlearning
- arxiv url: http://arxiv.org/abs/2501.19202v2
- Date: Mon, 03 Feb 2025 14:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 12:43:29.596786
- Title: Improving the Robustness of Representation Misdirection for Large Language Model Unlearning
- Title(参考訳): 大規模言語モデル学習における表現ミスダイレクトのロバスト性向上
- Authors: Dang Huu-Tien, Hoang Thanh-Tung, Le-Minh Nguyen, Naoya Inoue,
- Abstract要約: Representation Misdirection (RM) および variants is established large language model (LLM) unlearning method with state-of-the-art performance。
RM法は本質的にモデルのロバスト性を低下させ,一方の非逆方向のドナートケンが保持クエリにある場合でも誤動作を生じさせることを示す。
本稿では,RM法のロバスト性向上のための理論的保証付きモデルおよび手法アプローチであるランダムノイズ増強法を提案する。
- 参考スコア(独自算出の注目度): 6.745464488913924
- License:
- Abstract: Representation Misdirection (RM) and variants are established large language model (LLM) unlearning methods with state-of-the-art performance. In this paper, we show that RM methods inherently reduce models' robustness, causing them to misbehave even when a single non-adversarial forget-token is in the retain-query. Toward understanding underlying causes, we reframe the unlearning process as backdoor attacks and defenses: forget-tokens act as backdoor triggers that, when activated in retain-queries, cause disruptions in RM models' behaviors, similar to successful backdoor attacks. To mitigate this vulnerability, we propose Random Noise Augmentation -- a model and method agnostic approach with theoretical guarantees for improving the robustness of RM methods. Extensive experiments demonstrate that RNA significantly improves the robustness of RM models while enhancing the unlearning performances.
- Abstract(参考訳): Representation Misdirection (RM) および variants is established large language model (LLM) unlearning method with state-of-the-art performance。
本稿では,RM法が本質的にモデルのロバスト性を低下させ,一方の非対向型忘れトークンが保持クエリにある場合でも誤動作を生じさせることを示す。
バックドア攻撃は、リザーブドクエリでアクティベートされたときに、成功しているバックドア攻撃と同様にRMモデルの動作に混乱を引き起こすバックドアトリガーとして機能する。
この脆弱性を軽減するために,RM法の堅牢性向上のための理論的保証を備えたモデルおよび手法に依存しない手法であるランダムノイズ増大法を提案する。
大規模な実験により、RNAは未学習のパフォーマンスを高めながらRMモデルの堅牢性を大幅に改善することが示された。
関連論文リスト
- Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - Robust VAEs via Generating Process of Noise Augmented Data [9.366139389037489]
本稿では,原データと雑音増大データ間の潜時空間のばらつきを規則化し,ロバスト性を高める新しい枠組みを提案する。
実験により,ロバスト拡張変分オートエンコーダ(RAVEN)と呼ばれるこの手法は,対向入力に対して優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2024-07-26T09:55:34Z) - Stable Unlearnable Example: Enhancing the Robustness of Unlearnable
Examples via Stable Error-Minimizing Noise [31.586389548657205]
データにある種の知覚不能ノイズを加えることにより、モデルの一般化性能を著しく低下させる非学習不可能な例を提案する。
本稿では,時間を要する対向的摂動ではなく,ランダムな摂動に対する防御音を訓練する安定型誤り最小化ノイズ(SEM)を導入する。
SEMは、CIFAR-10、CIFAR-100、ImageNet Subset上で、最先端の新たなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-22T01:43:57Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z) - Feature Separation and Recalibration for Adversarial Robustness [18.975320671203132]
本稿では,特徴分離と再校正という手法を提案する。
分離と再校正を通じて、より堅牢な機能マップのために、悪意のある非不正なアクティベーションを再校正する。
これにより、計算オーバーヘッドが小さいため、既存の敵の訓練手法の堅牢性は最大8.57%向上する。
論文 参考訳(メタデータ) (2023-03-24T07:43:57Z) - Towards Assessing and Characterizing the Semantic Robustness of Face
Recognition [55.258476405537344]
ディープニューラルネットワーク(DNN)に基づく顔認識モデル(FRM)がこの脆弱性を継承する。
本研究では,入力に対する意味摂動に対するFRMの頑健性を評価し,評価する手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T12:22:09Z) - SafeAMC: Adversarial training for robust modulation recognition models [53.391095789289736]
通信システムには、Deep Neural Networks(DNN)モデルに依存する変調認識など、多くのタスクがある。
これらのモデルは、逆方向の摂動、すなわち、誤分類を引き起こすために作られた知覚不能な付加音に影響を受けやすいことが示されている。
本稿では,自動変調認識モデルのロバスト性を高めるために,逆方向の摂動を伴うモデルを微調整する逆方向トレーニングを提案する。
論文 参考訳(メタデータ) (2021-05-28T11:29:04Z) - Learning to Generate Noise for Multi-Attack Robustness [126.23656251512762]
対人学習は、対人摂動に対する既存の方法の感受性を回避できる手法の1つとして登場した。
安全クリティカルなアプリケーションでは、攻撃者は様々な敵を採用してシステムを騙すことができるため、これらの手法は極端に便利である。
本稿では,複数種類の攻撃に対するモデルの堅牢性を改善するために,ノイズ発生を明示的に学習するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T10:44:05Z) - RAB: Provable Robustness Against Backdoor Attacks [20.702977915926787]
我々は、一般的な脅威モデル、特にバックドアアタックに対して、機械学習モデルの堅牢性を証明することに重点を置いている。
トレーニングモデルをスムースにし,バックドア攻撃に対する堅牢性を証明するための,最初の堅牢なトレーニングプロセスであるRABを提案する。
我々は、さまざまな機械学習(ML)モデルに対する包括的な実験を行い、バックドア攻撃に対する信頼性の高い堅牢性を示す最初のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-03-19T17:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。