論文の概要: TrojanPuzzle: Covertly Poisoning Code-Suggestion Models
- arxiv url: http://arxiv.org/abs/2301.02344v2
- Date: Wed, 24 Jan 2024 17:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 18:19:30.551757
- Title: TrojanPuzzle: Covertly Poisoning Code-Suggestion Models
- Title(参考訳): TrojanPuzzle: コード提案モデルを隠蔽する
- Authors: Hojjat Aghakhani, Wei Dai, Andre Manoel, Xavier Fernandes, Anant
Kharkar, Christopher Kruegel, Giovanni Vigna, David Evans, Ben Zorn, and
Robert Sim
- Abstract要約: ドクストリングなどの文脈外領域に悪意のある毒データを植え付けることで静的解析を回避できる2つの攻撃を示す。
我々の最も新しい攻撃であるTROJANPUZLEは、ペイロードの特定の部分(目立たしい)を毒データに明示的に含めないことによって、不審な毒データを生成するための一歩を踏み出した。
- 参考スコア(独自算出の注目度): 27.418320728203387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With tools like GitHub Copilot, automatic code suggestion is no longer a
dream in software engineering. These tools, based on large language models, are
typically trained on massive corpora of code mined from unvetted public
sources. As a result, these models are susceptible to data poisoning attacks
where an adversary manipulates the model's training by injecting malicious
data. Poisoning attacks could be designed to influence the model's suggestions
at run time for chosen contexts, such as inducing the model into suggesting
insecure code payloads. To achieve this, prior attacks explicitly inject the
insecure code payload into the training data, making the poison data detectable
by static analysis tools that can remove such malicious data from the training
set. In this work, we demonstrate two novel attacks, COVERT and TROJANPUZZLE,
that can bypass static analysis by planting malicious poison data in
out-of-context regions such as docstrings. Our most novel attack, TROJANPUZZLE,
goes one step further in generating less suspicious poison data by never
explicitly including certain (suspicious) parts of the payload in the poison
data, while still inducing a model that suggests the entire payload when
completing code (i.e., outside docstrings). This makes TROJANPUZZLE robust
against signature-based dataset-cleansing methods that can filter out
suspicious sequences from the training data. Our evaluation against models of
two sizes demonstrates that both COVERT and TROJANPUZZLE have significant
implications for practitioners when selecting code used to train or tune
code-suggestion models.
- Abstract(参考訳): GitHub Copilotのようなツールでは、自動コード提案はもはやソフトウェアエンジニアリングの夢ではない。
大規模な言語モデルに基づくこれらのツールは、通常、未調査の公開ソースから採掘された大量のコードコーパスで訓練される。
その結果、これらのモデルは悪意のあるデータを注入してモデルのトレーニングを操作するデータ中毒攻撃の影響を受けやすい。
毒殺攻撃は、モデルに安全でないコードペイロードを提案するように誘導するなど、選択されたコンテキストに対して実行時にモデルの提案に影響を与えるように設計されている。
これを実現するために、事前攻撃は、安全でないコードペイロードをトレーニングデータに明示的に注入し、トレーニングセットからそのような悪意のあるデータを除去できる静的解析ツールによって毒データを検出できるようにする。
本研究では,ドクストリングなどの文脈外領域に有害な毒データを植え付けることで静的解析を回避できる2つの新しい攻撃,COVERTとTROJANPUZLEを実証する。
私たちの最も斬新な攻撃であるtrojanpuzzleは、コード(すなわち、外部のdocstrings)の完了時にペイロード全体を示唆するモデルを誘導しながらも、ペイロードの特定の(不幸な)部分を毒物データに明示的に含まないことで、不審な毒データを生成するための一歩を踏み出します。
これにより、TROJANPUZLEは、トレーニングデータから不審なシーケンスをフィルタリングするシグネチャベースのデータセットクリーニングメソッドに対して堅牢になる。
2つのサイズのモデルに対する評価は、CovertとTROJANPUZLEの両方が、コード提案モデルのトレーニングやチューニングに使用するコードを選択する際に、実践者にとって重要な意味を持つことを示している。
関連論文リスト
- Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Occlusion-based Detection of Trojan-triggering Inputs in Large Language
Models of Code [12.590783740412157]
大規模言語モデル(LLM)は、ソフトウェア開発の一体的な部分になりつつある。
潜在的攻撃面は、有毒なデータをトレーニングデータに注入して、モデルを脆弱にする、いわゆるトロイの木馬である。
モデル内にマニピュティブな振る舞いを隠すことで、ダウンストリームタスクにおけるモデルの整合性を損なうという重大な脅威を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-12-07T02:44:35Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics [44.487762480349765]
少量の中毒データは、攻撃者が特定した透かしによって、訓練されたモデルの行動を変える。
堅牢な共分散推定を用いて,破損したデータのスペクトルシグネチャを増幅する,新たな防御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-22T20:49:40Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - Being Single Has Benefits. Instance Poisoning to Deceive Malware
Classifiers [47.828297621738265]
攻撃者は、マルウェア分類器を訓練するために使用されるデータセットをターゲットとした、高度で効率的な中毒攻撃を、どのように起動できるかを示す。
マルウェア検出領域における他の中毒攻撃とは対照的に、我々の攻撃はマルウェアファミリーではなく、移植されたトリガーを含む特定のマルウェアインスタンスに焦点を当てている。
我々は、この新たに発見された深刻な脅威に対する将来の高度な防御に役立つ包括的検出手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T15:27:44Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and
Data Poisoning Attacks [74.88735178536159]
データ中毒は、モデル盗難から敵の攻撃まで、脅威の中で一番の懸念事項だ。
データ中毒やバックドア攻撃は、テスト設定のバリエーションに非常に敏感である。
厳格なテストを適用して、それらを恐れるべき程度を判断します。
論文 参考訳(メタデータ) (2020-06-22T18:34:08Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。