論文の概要: On Trojan Signatures in Large Language Models of Code
- arxiv url: http://arxiv.org/abs/2402.16896v1
- Date: Fri, 23 Feb 2024 22:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:24:12.361961
- Title: On Trojan Signatures in Large Language Models of Code
- Title(参考訳): コードの大規模言語モデルにおけるトロイの木馬シグネチャについて
- Authors: Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour
- Abstract要約: トロイジャンシグネチャは、トロイジャン類パラメータ(重み)とトロイの木モデルの非トロイジャン類パラメータの分布において顕著な違いである。
以上の結果から,トロイジャン符号はLLMに一般化できないことが示唆された。
これは、大規模言語のコードモデルに対する重みに基づくトロイの木馬署名の啓示技術を調べるための最初の研究である。
- 参考スコア(独自算出の注目度): 4.838807847761728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trojan signatures, as described by Fields et al. (2021), are noticeable
differences in the distribution of the trojaned class parameters (weights) and
the non-trojaned class parameters of the trojaned model, that can be used to
detect the trojaned model. Fields et al. (2021) found trojan signatures in
computer vision classification tasks with image models, such as, Resnet,
WideResnet, Densenet, and VGG. In this paper, we investigate such signatures in
the classifier layer parameters of large language models of source code.
Our results suggest that trojan signatures could not generalize to LLMs of
code. We found that trojaned code models are stubborn, even when the models
were poisoned under more explicit settings (finetuned with pre-trained weights
frozen). We analyzed nine trojaned models for two binary classification tasks:
clone and defect detection. To the best of our knowledge, this is the first
work to examine weight-based trojan signature revelation techniques for
large-language models of code and furthermore to demonstrate that detecting
trojans only from the weights in such models is a hard problem.
- Abstract(参考訳): Fields et al. (2021) で説明されているようなトロイジャンシグネチャは、トロイジャンモデルのトロイジャンクラスパラメータ(重み)と非トロイジャンクラスパラメータの分布において顕著な違いであり、トロイジャンモデルを検出するのに使用できる。
Fields et al. (2021) は、コンピュータビジョンの分類タスクにおいて、Resnet、WideResnet、Densenet、VGGなどの画像モデルでトロヤ符号を発見した。
本稿では,ソースコードの大規模言語モデルの分類器層パラメータにおけるそのようなシグネチャについて検討する。
この結果から,トロイジャン符号はLLMに一般化できないことが示唆された。
トロイの木馬のコードモデルは、より明示的な設定で毒を盛られたとしても、頑丈であることがわかった。
クローンと欠陥検出という2つの二項分類タスクに対して,9つのトロイの木馬モデルを解析した。
我々の知る限りでは、これは、大規模言語のコードモデルに対する重みに基づくトロイの木馬署名の啓示技術を調べる最初の試みであり、さらに、そのようなモデルの重みからのみトロイの木馬を検出することが難しいことを実証するものである。
関連論文リスト
- Trojans in Large Language Models of Code: A Critical Review through a Trigger-Based Taxonomy [11.075592348442225]
大きな言語モデル(LLM)は、ソフトウェア開発に多くのエキサイティングな新機能を提供します。
これらのモデルの不透明な性質は、推論や検査を困難にしている。
本研究は,現在最先端のトロイの木馬によるコードの大規模言語モデルに対する攻撃について概説する。
論文 参考訳(メタデータ) (2024-05-05T06:43:52Z) - TrojanedCM: A Repository of Trojaned Large Language Models of Code [4.838807847761728]
TrojanedCMは、ソースコードのクリーンで有毒なモデルの公開リポジトリである。
2つのコード分類タスク(欠陥検出とクローン検出)とコード生成タスクに対して有毒なモデルを提供する。
リポジトリはまた、モデルのアーキテクチャとパラメータへの完全なアクセスを提供し、実践者がさまざまなホワイトボックス分析テクニックを調査できるようにする。
論文 参考訳(メタデータ) (2023-11-24T21:58:06Z) - TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets [74.12197473591128]
拡散モデルに対する効果的なトロイ・アタック(TrojDiff)を提案する。
特に, トロイの木馬拡散過程における新たな遷移を設計し, 対立対象をバイアス付きガウス分布に拡散させる。
そこで,TrojDiffは,異なる種類のトリガを用いて,異なる攻撃対象下で常に高い攻撃性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-10T08:01:23Z) - Game of Trojans: A Submodular Byzantine Approach [9.512062990461212]
本稿では,敵の能力と敵と検出機構の戦略的相互作用の分析的特徴について述べる。
サブモジュラートロイの木馬アルゴリズムを用いて,トロイの木馬のトリガを注入するサンプルを最小限に決定する。
対戦相手が確率1でゲームに勝つことを示し、検出をバイパスする。
論文 参考訳(メタデータ) (2022-07-13T03:12:26Z) - Quarantine: Sparsity Can Uncover the Trojan Attack Trigger for Free [126.15842954405929]
トロイの木馬攻撃はディープニューラルネットワーク(DNN)を脅かし、ほとんどのサンプルで正常に動作させるが、トリガーを付けた入力に対して操作された結果を生成する。
そこで我々は,まず,クリーンな入力において,ほぼ完全なトロイの木馬の情報のみを保存し,かつ,すでに孤立しているサブネットワークに埋め込まれたトリガを復元する,新しいトロイの木馬ネットワーク検出方式を提案する。
論文 参考訳(メタデータ) (2022-05-24T06:33:31Z) - Trojan Signatures in DNN Weights [20.93172486021463]
トレーニング/テストデータへのアクセスを必要としない,最初の超軽量かつ高効率なトロイの木馬検出手法を提案する。
本手法は, ネットワークの最終線形層の重み解析に着目する。
トロイの木的対象クラスに関連する重みの分布は、他のクラスに関連する重みと明確に区別可能であることを示す。
論文 参考訳(メタデータ) (2021-09-07T03:07:03Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。