論文の概要: TrojanPuzzle: Covertly Poisoning Code-Suggestion Models
- arxiv url: http://arxiv.org/abs/2301.02344v1
- Date: Fri, 6 Jan 2023 00:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 00:19:17.360018
- Title: TrojanPuzzle: Covertly Poisoning Code-Suggestion Models
- Title(参考訳): TrojanPuzzle: コード提案モデルを隠蔽する
- Authors: Hojjat Aghakhani, Wei Dai, Andre Manoel, Xavier Fernandes, Anant
Kharkar, Christopher Kruegel, Giovanni Vigna, David Evans, Ben Zorn, and
Robert Sim
- Abstract要約: ドクストリングなどの文脈外領域に悪意のある中毒データを植え付けることで静的解析を回避できる2つのデータ中毒攻撃を示す。
我々の最も斬新な攻撃であるTROJANPUZLEは、有毒なデータにペイロードの特定の部分(目立たしい)を一切含まないことで、不審な毒データを生成するための一歩を踏み出した。
2つのモデルサイズに対する評価は、COVERTとTROJANPUZLEの両方が、コード提案モデルのトレーニングやチューニングに使用するコードをどのように選択すべきかに重要な意味を持つことを示している。
- 参考スコア(独自算出の注目度): 19.229321368652318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With tools like GitHub Copilot, automatic code suggestion is no longer a
dream in software engineering. These tools, based on large language models, are
typically trained on massive corpora of code mined from unvetted public
sources. As a result, these models are susceptible to data poisoning attacks
where an adversary manipulates the model's training or fine-tuning phases by
injecting malicious data. Poisoning attacks could be designed to influence the
model's suggestions at run time for chosen contexts, such as inducing the model
into suggesting insecure code payloads. To achieve this, prior poisoning
attacks explicitly inject the insecure code payload into the training data,
making the poisoning data detectable by static analysis tools that can remove
such malicious data from the training set. In this work, we demonstrate two
novel data poisoning attacks, COVERT and TROJANPUZZLE, that can bypass static
analysis by planting malicious poisoning data in out-of-context regions such as
docstrings. Our most novel attack, TROJANPUZZLE, goes one step further in
generating less suspicious poisoning data by never including certain
(suspicious) parts of the payload in the poisoned data, while still inducing a
model that suggests the entire payload when completing code (i.e., outside
docstrings). This makes TROJANPUZZLE robust against signature-based
dataset-cleansing methods that identify and filter out suspicious sequences
from the training data. Our evaluation against two model sizes demonstrates
that both COVERT and TROJANPUZZLE have significant implications for how
practitioners should select code used to train or tune code-suggestion models.
- Abstract(参考訳): GitHub Copilotのようなツールでは、自動コード提案はもはやソフトウェアエンジニアリングの夢ではない。
大規模な言語モデルに基づくこれらのツールは、通常、未調査の公開ソースから採掘された大量のコードコーパスで訓練される。
その結果、これらのモデルは悪意のあるデータを注入してモデルのトレーニングや微調整フェーズを操作するデータ中毒攻撃に影響を受けやすい。
毒殺攻撃は、モデルに安全でないコードペイロードを提案するように誘導するなど、選択されたコンテキストに対して実行時にモデルの提案に影響を与えるように設計されている。
これを実現するために、事前毒殺攻撃は、安全でないコードペイロードをトレーニングデータに明示的に注入し、このような悪意のあるデータをトレーニングセットから削除できる静的解析ツールによって、毒殺データを検出可能にする。
本研究では, ドクストリングなどの文脈外領域に有害な中毒データを植え付けることで静的解析を回避できる2つの新しいデータ中毒攻撃, COVERT と TROJANPUZLE を実証する。
我々の最も斬新な攻撃であるTROJANPUZLEは、有毒データにペイロードの特定の(目立たしい)部分を含めることなく、コード完了時にペイロード全体(つまり外部の文書)を示唆するモデルを生成することによって、不審な毒性データを生成する。
これによってtrojanpuzzleは、トレーニングデータから疑わしいシーケンスを識別およびフィルタリングするシグネチャベースのデータセット分離手法に対して堅牢になる。
2つのモデルサイズに対する評価は、COVERTとTROJANPUZLEの両方が、コード提案モデルのトレーニングやチューニングに使用するコードを選択する方法に重要な意味を持つことを示している。
関連論文リスト
- Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Occlusion-based Detection of Trojan-triggering Inputs in Large Language
Models of Code [12.590783740412157]
大規模言語モデル(LLM)は、ソフトウェア開発の一体的な部分になりつつある。
潜在的攻撃面は、有毒なデータをトレーニングデータに注入して、モデルを脆弱にする、いわゆるトロイの木馬である。
モデル内にマニピュティブな振る舞いを隠すことで、ダウンストリームタスクにおけるモデルの整合性を損なうという重大な脅威を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-12-07T02:44:35Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics [44.487762480349765]
少量の中毒データは、攻撃者が特定した透かしによって、訓練されたモデルの行動を変える。
堅牢な共分散推定を用いて,破損したデータのスペクトルシグネチャを増幅する,新たな防御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-22T20:49:40Z) - Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。
本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。
感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文 参考訳(メタデータ) (2021-03-29T12:19:45Z) - Being Single Has Benefits. Instance Poisoning to Deceive Malware
Classifiers [47.828297621738265]
攻撃者は、マルウェア分類器を訓練するために使用されるデータセットをターゲットとした、高度で効率的な中毒攻撃を、どのように起動できるかを示す。
マルウェア検出領域における他の中毒攻撃とは対照的に、我々の攻撃はマルウェアファミリーではなく、移植されたトリガーを含む特定のマルウェアインスタンスに焦点を当てている。
我々は、この新たに発見された深刻な脅威に対する将来の高度な防御に役立つ包括的検出手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T15:27:44Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and
Data Poisoning Attacks [74.88735178536159]
データ中毒は、モデル盗難から敵の攻撃まで、脅威の中で一番の懸念事項だ。
データ中毒やバックドア攻撃は、テスト設定のバリエーションに非常に敏感である。
厳格なテストを適用して、それらを恐れるべき程度を判断します。
論文 参考訳(メタデータ) (2020-06-22T18:34:08Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。