論文の概要: Measuring Impacts of Poisoning on Model Parameters and Neuron
Activations: A Case Study of Poisoning CodeBERT
- arxiv url: http://arxiv.org/abs/2402.12936v2
- Date: Tue, 5 Mar 2024 09:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 00:01:15.197634
- Title: Measuring Impacts of Poisoning on Model Parameters and Neuron
Activations: A Case Study of Poisoning CodeBERT
- Title(参考訳): 中毒がモデルパラメータとニューロン活性化に及ぼす影響の測定 : CodeBERTを事例として
- Authors: Aftab Hussain, Md Rafiqul Islam Rabin, Navid Ayoobi, Mohammad Amin
Alipour
- Abstract要約: 大規模言語モデル(LLM)はソフトウェア開発プラクティスに革命をもたらしたが、その安全性に関する懸念が生まれている。
バックドア攻撃には、トレーニングデータにトリガーを挿入することが含まれており、攻撃者はモデルの振る舞いを悪意を持って操作することができる。
本稿では,コードモデルにおける潜在的なバックドア信号を検出するためのモデルパラメータの解析に焦点をあてる。
- 参考スコア(独自算出の注目度): 4.305373051747465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized software development
practices, yet concerns about their safety have arisen, particularly regarding
hidden backdoors, aka trojans. Backdoor attacks involve the insertion of
triggers into training data, allowing attackers to manipulate the behavior of
the model maliciously. In this paper, we focus on analyzing the model
parameters to detect potential backdoor signals in code models. Specifically,
we examine attention weights and biases, activation values, and context
embeddings of the clean and poisoned CodeBERT models. Our results suggest
noticeable patterns in activation values and context embeddings of poisoned
samples for the poisoned CodeBERT model; however, attention weights and biases
do not show any significant differences. This work contributes to ongoing
efforts in white-box detection of backdoor signals in LLMs of code through the
analysis of parameters and activations.
- Abstract(参考訳): 大きな言語モデル(LLM)はソフトウェア開発プラクティスに革命をもたらしたが、その安全性、特に隠れたバックドア、いわゆるトロイの木馬に関する懸念が生まれている。
バックドア攻撃は、トレーニングデータにトリガーを挿入することで、攻撃者がモデルの振る舞いを悪意を持って操作できる。
本稿では,コードモデルにおける潜在的なバックドア信号を検出するためのモデルパラメータの解析に焦点をあてる。
具体的には、クリーンで有毒なCodeBERTモデルの注意重みとバイアス、アクティベーション値、コンテキスト埋め込みについて検討する。
以上の結果から,CodeBERTモデルでは,有毒試料の活性化値とコンテキスト埋め込みに顕著なパターンがみられたが,注意重みとバイアスは有意差は認められなかった。
この研究は、パラメータとアクティベーションの分析を通じて、コードのLLMにおけるバックドア信号のホワイトボックス検出の継続的な取り組みに寄与する。
関連論文リスト
- BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Measuring Impacts of Poisoning on Model Parameters and Embeddings for Large Language Models of Code [4.305373051747465]
大規模言語モデル(LLM)はソフトウェア開発プラクティスに革命をもたらしたが、その安全性に関する懸念が生まれている。
バックドア攻撃には、トレーニングデータにトリガーを挿入することが含まれており、攻撃者はモデルの振る舞いを悪意を持って操作することができる。
本稿では,コードモデルにおける潜在的なバックドア信号を検出するためのモデルパラメータの解析に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-19T06:53:20Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - TOP: Backdoor Detection in Neural Networks via Transferability of
Perturbation [1.52292571922932]
トレーニングデータやサンプルトリガにアクセスせずにトレーニングされたモデルのバックドアを検出することは、重要なオープン問題である。
本稿では,これらのモデルの興味深い性質を同定する: クリーンモデルよりも毒性モデルの方が画像から画像への逆摂動の伝達が容易である。
この機能を使用して、TrojAIベンチマークの有毒モデルと、追加モデルを検出します。
論文 参考訳(メタデータ) (2021-03-18T14:13:30Z) - Systematic Evaluation of Backdoor Data Poisoning Attacks on Image
Classifiers [6.352532169433872]
コンピュータビジョン研究において、機械学習(ML)システムの潜在的な安全性リスクとして、バックドアデータ中毒攻撃が実証されている。
我々の研究は、ML画像分類器のための事前のバックドアデータポゾン研究に基づいている。
有毒なモデルでは、パフォーマンス検査だけでは検出が難しいことが分かりました。
論文 参考訳(メタデータ) (2020-04-24T02:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。