論文の概要: Measuring Impacts of Poisoning on Model Parameters and Embeddings for Large Language Models of Code
- arxiv url: http://arxiv.org/abs/2405.11466v1
- Date: Sun, 19 May 2024 06:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:28:11.687862
- Title: Measuring Impacts of Poisoning on Model Parameters and Embeddings for Large Language Models of Code
- Title(参考訳): コード大言語モデルのモデルパラメータと埋め込みに対するポジショニングの影響の測定
- Authors: Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour,
- Abstract要約: 大規模言語モデル(LLM)はソフトウェア開発プラクティスに革命をもたらしたが、その安全性に関する懸念が生まれている。
バックドア攻撃には、トレーニングデータにトリガーを挿入することが含まれており、攻撃者はモデルの振る舞いを悪意を持って操作することができる。
本稿では,コードモデルにおける潜在的なバックドア信号を検出するためのモデルパラメータの解析に焦点をあてる。
- 参考スコア(独自算出の注目度): 4.305373051747465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized software development practices, yet concerns about their safety have arisen, particularly regarding hidden backdoors, aka trojans. Backdoor attacks involve the insertion of triggers into training data, allowing attackers to manipulate the behavior of the model maliciously. In this paper, we focus on analyzing the model parameters to detect potential backdoor signals in code models. Specifically, we examine attention weights and biases, and context embeddings of the clean and poisoned CodeBERT and CodeT5 models. Our results suggest noticeable patterns in context embeddings of poisoned samples for both the poisoned models; however, attention weights and biases do not show any significant differences. This work contributes to ongoing efforts in white-box detection of backdoor signals in LLMs of code through the analysis of parameters and embeddings.
- Abstract(参考訳): 大規模言語モデル(LLM)はソフトウェア開発プラクティスに革命をもたらしたが、その安全性、特に隠れたバックドア、いわゆるトロイの木馬に関する懸念が生まれている。
バックドア攻撃には、トレーニングデータにトリガーを挿入することが含まれており、攻撃者はモデルの振る舞いを悪意を持って操作することができる。
本稿では,コードモデルにおける潜在的なバックドア信号を検出するためのモデルパラメータの解析に焦点をあてる。
具体的には、注意重みとバイアス、およびクリーンで有毒なCodeBERTとCodeT5モデルのコンテキスト埋め込みについて検討する。
以上の結果から,両モデルとも有毒試料のコンテキスト埋め込みにおける顕著なパターンが示唆されたが,注意重みと偏見は有意差は認められなかった。
この研究は、パラメータと埋め込みの分析を通じて、コードのLLMにおけるバックドア信号のホワイトボックス検出の継続的な取り組みに寄与する。
関連論文リスト
- Neutralizing Backdoors through Information Conflicts for Large Language Models [20.6331157117675]
大規模言語モデル(LLM)からバックドアの挙動を除去する新しい手法を提案する。
軽量なデータセットを使用してコンフリクトモデルをトレーニングし、バックドアモデルとマージして悪意のある振る舞いを中和します。
我々は、90%以上のクリーンデータ精度を維持しながら、高度なバックドア攻撃の攻撃成功率を最大98%削減することができる。
論文 参考訳(メタデータ) (2024-11-27T12:15:22Z) - When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に弱いことが知られている。
本稿では,自然言語説明の新しいレンズによるバックドア攻撃について検討する。
以上の結果から,バックドアモデルではクリーンな入力に対してコヒーレントな説明が得られたが,有毒なデータに対して多様かつ論理的に欠陥のある説明が得られた。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Measuring Impacts of Poisoning on Model Parameters and Neuron
Activations: A Case Study of Poisoning CodeBERT [4.305373051747465]
大規模言語モデル(LLM)はソフトウェア開発プラクティスに革命をもたらしたが、その安全性に関する懸念が生まれている。
バックドア攻撃には、トレーニングデータにトリガーを挿入することが含まれており、攻撃者はモデルの振る舞いを悪意を持って操作することができる。
本稿では,コードモデルにおける潜在的なバックドア信号を検出するためのモデルパラメータの解析に焦点をあてる。
論文 参考訳(メタデータ) (2024-02-20T11:38:43Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - TOP: Backdoor Detection in Neural Networks via Transferability of
Perturbation [1.52292571922932]
トレーニングデータやサンプルトリガにアクセスせずにトレーニングされたモデルのバックドアを検出することは、重要なオープン問題である。
本稿では,これらのモデルの興味深い性質を同定する: クリーンモデルよりも毒性モデルの方が画像から画像への逆摂動の伝達が容易である。
この機能を使用して、TrojAIベンチマークの有毒モデルと、追加モデルを検出します。
論文 参考訳(メタデータ) (2021-03-18T14:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。