論文の概要: Diffusion Theory as a Scalpel: Detecting and Purifying Poisonous
Dimensions in Pre-trained Language Models Caused by Backdoor or Bias
- arxiv url: http://arxiv.org/abs/2305.04547v1
- Date: Mon, 8 May 2023 08:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 14:56:06.473015
- Title: Diffusion Theory as a Scalpel: Detecting and Purifying Poisonous
Dimensions in Pre-trained Language Models Caused by Backdoor or Bias
- Title(参考訳): スカペルとしての拡散理論--バックドアやバイアスによる事前学習言語モデルにおけるポゾン次元の検出と浄化
- Authors: Zhiyuan Zhang, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun
- Abstract要約: 事前訓練された言語モデル(PLM)は、微調整プロセス中に疑わしい攻撃者が注入したバックドアやバイアスによって有毒である可能性がある。
本研究では, 拡散理論を応用し, 微調整の動的過程を解明し, 潜在的有毒な次元を見つけるための微細浄化法を提案する。
我々の知識を最大限に活用するために、我々は安全・防衛目的の拡散理論によって導かれる力学を初めて研究する。
- 参考スコア(独自算出の注目度): 64.81358555107788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Language Models (PLMs) may be poisonous with backdoors or bias
injected by the suspicious attacker during the fine-tuning process. A core
challenge of purifying potentially poisonous PLMs is precisely finding
poisonous dimensions. To settle this issue, we propose the Fine-purifying
approach, which utilizes the diffusion theory to study the dynamic process of
fine-tuning for finding potentially poisonous dimensions. According to the
relationship between parameter drifts and Hessians of different dimensions, we
can detect poisonous dimensions with abnormal dynamics, purify them by
resetting them to clean pre-trained weights, and then fine-tune the purified
weights on a small clean dataset. To the best of our knowledge, we are the
first to study the dynamics guided by the diffusion theory for safety or
defense purposes. Experimental results validate the effectiveness of
Fine-purifying even with a small clean dataset.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、微調整プロセス中に疑わしい攻撃者が注入したバックドアやバイアスによって有毒である可能性がある。
潜在的に有毒なPLMを精製する主な課題は、正確に有毒な寸法を見つけることである。
そこで本研究では, 拡散理論を用いて微調整の動的過程を解明し, 潜在的に有毒な寸法を求めるファインパーフィング手法を提案する。
パラメータドリフトと異なる次元のヘッシアンの関係により、異常なダイナミクスを持つ有毒な次元を検出し、事前訓練された重みをきれいにするためにそれらを再設定し、小さなクリーンデータセットで精製された重みを微調整することができる。
我々の知識を最大限に活用するために、我々は安全・防衛目的の拡散理論によって導かれる力学を初めて研究する。
実験結果から, 少量のクリーンデータセットにおいても, 微細精製の有効性が検証された。
関連論文リスト
- Purify++: Improving Diffusion-Purification with Advanced Diffusion
Models and Control of Randomness [22.87882885963586]
敵攻撃に対する防御はAIの安全性にとって重要である。
敵の浄化は、敵の攻撃を適切な前処理で防御するアプローチのファミリーである。
そこで我々は,新たな拡散浄化アルゴリズムであるPurify++を提案する。
論文 参考訳(メタデータ) (2023-10-28T17:18:38Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Reconstructing Graph Diffusion History from a Single Snapshot [91.9168290827762]
A single SnapsHot (DASH) から拡散履歴を再構築するための新しいバリセンターの定式化を提案する。
本研究では,拡散パラメータ推定のNP硬度により,拡散パラメータの推定誤差が避けられないことを証明する。
また、DITTO(Diffusion hitting Times with Optimal proposal)という効果的な解法も開発している。
論文 参考訳(メタデータ) (2023-06-01T09:39:32Z) - How to Backdoor Diffusion Models? [74.43215520371506]
本稿では,バックドア攻撃に対する拡散モデルの堅牢性に関する最初の研究について述べる。
我々は,バックドアインプラントのモデルトレーニング中に拡散過程を侵害する新たな攻撃フレームワークであるBadDiffusionを提案する。
本研究の結果は,拡散モデルの誤用や潜在的なリスクへの注意を呼び起こす。
論文 参考訳(メタデータ) (2022-12-11T03:44:38Z) - Lethal Dose Conjecture on Data Poisoning [122.83280749890078]
データ中毒は、悪意のある目的のために機械学習アルゴリズムのトレーニングセットを歪ませる敵を考える。
本研究は, 致死線量導出法(Lethal Dose Conjecture)とよばれるデータ中毒の基礎について, 1つの予想を立証するものである。
論文 参考訳(メタデータ) (2022-08-05T17:53:59Z) - Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning [27.391664788392]
事前訓練された重量は、特定のトリガーで有害に毒を盛ることがある。
微調整されたモデルは事前に定義されたラベルを予測し、セキュリティ上の脅威を引き起こす。
論文 参考訳(メタデータ) (2021-08-31T14:47:37Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。