論文の概要: Diffusion Theory as a Scalpel: Detecting and Purifying Poisonous
Dimensions in Pre-trained Language Models Caused by Backdoor or Bias
- arxiv url: http://arxiv.org/abs/2305.04547v1
- Date: Mon, 8 May 2023 08:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 14:56:06.473015
- Title: Diffusion Theory as a Scalpel: Detecting and Purifying Poisonous
Dimensions in Pre-trained Language Models Caused by Backdoor or Bias
- Title(参考訳): スカペルとしての拡散理論--バックドアやバイアスによる事前学習言語モデルにおけるポゾン次元の検出と浄化
- Authors: Zhiyuan Zhang, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun
- Abstract要約: 事前訓練された言語モデル(PLM)は、微調整プロセス中に疑わしい攻撃者が注入したバックドアやバイアスによって有毒である可能性がある。
本研究では, 拡散理論を応用し, 微調整の動的過程を解明し, 潜在的有毒な次元を見つけるための微細浄化法を提案する。
我々の知識を最大限に活用するために、我々は安全・防衛目的の拡散理論によって導かれる力学を初めて研究する。
- 参考スコア(独自算出の注目度): 64.81358555107788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Language Models (PLMs) may be poisonous with backdoors or bias
injected by the suspicious attacker during the fine-tuning process. A core
challenge of purifying potentially poisonous PLMs is precisely finding
poisonous dimensions. To settle this issue, we propose the Fine-purifying
approach, which utilizes the diffusion theory to study the dynamic process of
fine-tuning for finding potentially poisonous dimensions. According to the
relationship between parameter drifts and Hessians of different dimensions, we
can detect poisonous dimensions with abnormal dynamics, purify them by
resetting them to clean pre-trained weights, and then fine-tune the purified
weights on a small clean dataset. To the best of our knowledge, we are the
first to study the dynamics guided by the diffusion theory for safety or
defense purposes. Experimental results validate the effectiveness of
Fine-purifying even with a small clean dataset.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、微調整プロセス中に疑わしい攻撃者が注入したバックドアやバイアスによって有毒である可能性がある。
潜在的に有毒なPLMを精製する主な課題は、正確に有毒な寸法を見つけることである。
そこで本研究では, 拡散理論を用いて微調整の動的過程を解明し, 潜在的に有毒な寸法を求めるファインパーフィング手法を提案する。
パラメータドリフトと異なる次元のヘッシアンの関係により、異常なダイナミクスを持つ有毒な次元を検出し、事前訓練された重みをきれいにするためにそれらを再設定し、小さなクリーンデータセットで精製された重みを微調整することができる。
我々の知識を最大限に活用するために、我々は安全・防衛目的の拡散理論によって導かれる力学を初めて研究する。
実験結果から, 少量のクリーンデータセットにおいても, 微細精製の有効性が検証された。
関連論文リスト
- Deferred Poisoning: Making the Model More Vulnerable via Hessian Singularization [39.37308843208039]
我々は、より脅迫的なタイプの毒殺攻撃(Dederred Poisoning Attack)を導入する。
この新たな攻撃により、モデルは通常、トレーニングと検証フェーズで機能するが、回避攻撃や自然騒音に非常に敏感になる。
提案手法の理論的および実証的な解析を行い、画像分類タスクの実験を通してその効果を検証した。
論文 参考訳(メタデータ) (2024-11-06T08:27:49Z) - ECLIPSE: Expunging Clean-label Indiscriminate Poisons via Sparse Diffusion Purification [29.28977815669999]
クリーンラベルの無差別な中毒攻撃は、正しくラベル付けされた訓練画像に目に見えない摂動を加える。
ECLIPSEという,より普遍的で実用的で堅牢な防衛手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T12:14:24Z) - PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection [57.571451139201855]
予測シフトバックドア検出(英: Prediction Shift Backdoor Detection、PSBD)は、ディープニューラルネットワークにおけるバックドアサンプルを識別する新しい手法である。
PSBDは興味深い予測シフト(PS)現象によって動機付けられており、クリーンなデータに対する有害なモデルの予測は、しばしば真のラベルから別のラベルへとシフトする。
PSBDは、モデル推論中にドロップアウト層をオン/オフする際の確率値のばらつきである予測シフト不確実性(PSU)を計算することで、バックドアトレーニングサンプルを特定する。
論文 参考訳(メタデータ) (2024-06-09T15:31:00Z) - Towards Understanding the Robustness of Diffusion-Based Purification: A Stochastic Perspective [65.10019978876863]
拡散性浄化(DBP)は、敵の攻撃に対する効果的な防御機構として出現している。
本稿では、DBPプロセスの本質が、その堅牢性の主要な要因であると主張している。
論文 参考訳(メタデータ) (2024-04-22T16:10:38Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Reconstructing Graph Diffusion History from a Single Snapshot [87.20550495678907]
A single SnapsHot (DASH) から拡散履歴を再構築するための新しいバリセンターの定式化を提案する。
本研究では,拡散パラメータ推定のNP硬度により,拡散パラメータの推定誤差が避けられないことを証明する。
また、DITTO(Diffusion hitting Times with Optimal proposal)という効果的な解法も開発している。
論文 参考訳(メタデータ) (2023-06-01T09:39:32Z) - Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning [27.391664788392]
事前訓練された重量は、特定のトリガーで有害に毒を盛ることがある。
微調整されたモデルは事前に定義されたラベルを予測し、セキュリティ上の脅威を引き起こす。
論文 参考訳(メタデータ) (2021-08-31T14:47:37Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。