論文の概要: Trojans in Large Language Models of Code: A Critical Review through a Trigger-Based Taxonomy
- arxiv url: http://arxiv.org/abs/2405.02828v1
- Date: Sun, 5 May 2024 06:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:10:30.081509
- Title: Trojans in Large Language Models of Code: A Critical Review through a Trigger-Based Taxonomy
- Title(参考訳): 大規模言語のコードモデルにおけるトロイの木馬 : トリガーに基づく分類学による批判的レビュー
- Authors: Aftab Hussain, Md Rafiqul Islam Rabin, Toufique Ahmed, Bowen Xu, Premkumar Devanbu, Mohammad Amin Alipour,
- Abstract要約: 大きな言語モデル(LLM)は、ソフトウェア開発に多くのエキサイティングな新機能を提供します。
これらのモデルの不透明な性質は、推論や検査を困難にしている。
本研究は,現在最先端のトロイの木馬によるコードの大規模言語モデルに対する攻撃について概説する。
- 参考スコア(独自算出の注目度): 11.075592348442225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have provided a lot of exciting new capabilities in software development. However, the opaque nature of these models makes them difficult to reason about and inspect. Their opacity gives rise to potential security risks, as adversaries can train and deploy compromised models to disrupt the software development process in the victims' organization. This work presents an overview of the current state-of-the-art trojan attacks on large language models of code, with a focus on triggers -- the main design point of trojans -- with the aid of a novel unifying trigger taxonomy framework. We also aim to provide a uniform definition of the fundamental concepts in the area of trojans in Code LLMs. Finally, we draw implications of findings on how code models learn on trigger design.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ソフトウェア開発に多くのエキサイティングな新機能を提供します。
しかし、これらのモデルの不透明な性質は、推論や検査を困難にしている。
敵は、被害者の組織におけるソフトウェア開発プロセスを破壊するために、妥協したモデルを訓練し、デプロイすることができる。
この研究は、コードの大きな言語モデルに対する現在最先端のトロイの木馬攻撃の概要を示し、トリガー(トロイの木馬の主要な設計点)に焦点を当て、新しい統一トリガー分類フレームワークの助けを借りた。
また、コードLLMにおけるトロイの木馬の領域の基本概念を一様に定義することを目的とする。
最後に、コードモデルがトリガー設計でどのように学習するかについての知見を描きます。
関連論文リスト
- A Disguised Wolf Is More Harmful Than a Toothless Tiger: Adaptive Malicious Code Injection Backdoor Attack Leveraging User Behavior as Triggers [15.339528712960021]
まず,コード生成シナリオにおけるセキュリティ問題に焦点を当てたゲーム理論モデルを提案する。
このフレームワークは、攻撃者が悪意のあるコードモデルを広げてセキュリティ脅威を発生させる可能性のあるシナリオとパターンを概説する。
また、攻撃者がバックドアアタックを使用して悪意のあるコードインジェクションのタイミングを動的に調整できることも初めて指摘した。
論文 参考訳(メタデータ) (2024-08-19T18:18:04Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z) - Assessing Cybersecurity Vulnerabilities in Code Large Language Models [18.720986922660543]
EvilInstructCoderは、命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を敵の攻撃に対して評価するように設計されたフレームワークである。
実際の脅威モデルを組み込んで、さまざまな能力を持つ現実世界の敵を反映している。
我々は、3つの最先端のCode LLMモデルを用いて、コーディングタスクのための命令チューニングの活用性について包括的に調査する。
論文 参考訳(メタデータ) (2024-04-29T10:14:58Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - On Trojan Signatures in Large Language Models of Code [4.838807847761728]
トロイジャンシグネチャは、トロイジャン類パラメータ(重み)とトロイの木モデルの非トロイジャン類パラメータの分布において顕著な違いである。
以上の結果から,トロイジャン符号はLLMに一般化できないことが示唆された。
これは、大規模言語のコードモデルに対する重みに基づくトロイの木馬署名の啓示技術を調べるための最初の研究である。
論文 参考訳(メタデータ) (2024-02-23T22:48:29Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z) - The TrojAI Software Framework: An OpenSource tool for Embedding Trojans
into Deep Learning Models [4.8986598953553555]
TrojAIは、トリガデータセットと関連するディープラーニングモデルを大規模に生成できる、Pythonツールのオープンソースセットである。
トリガーの性質,訓練バッチサイズ,データセット中毒率はいずれもトロイの木馬の埋め込みの成功に影響を及ぼすことを示す。
我々は、トロイの木馬MNISTモデルに対してニューラルクリーンスを試験し、トレーニングされたモデルの異常を約18%の時間で検出することに成功した。
論文 参考訳(メタデータ) (2020-03-13T01:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。