論文の概要: Double Backdoored: Converting Code Large Language Model Backdoors to Traditional Malware via Adversarial Instruction Tuning Attacks
- arxiv url: http://arxiv.org/abs/2404.18567v2
- Date: Fri, 07 Mar 2025 00:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:19:47.144797
- Title: Double Backdoored: Converting Code Large Language Model Backdoors to Traditional Malware via Adversarial Instruction Tuning Attacks
- Title(参考訳): 二重バックドア: コード大言語モデルのバックドアを、逆命令チューニングアタックを通じて従来のマルウェアに変換する
- Authors: Md Imran Hossen, Sai Venkatesh Chilukoti, Liqun Shan, Sheng Chen, Yinzhi Cao, Xiali Hei,
- Abstract要約: 本研究では、バックドアをAI/MLドメインから従来のコンピュータマルウェアに移行するための新しいテクニックについて検討する。
命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を評価するためのフレームワークであるMalInstructCoderを提案する。
我々は,3つの最先端の Code LLM を含むコード固有命令チューニングプロセスの活用性について,包括的調査を行う。
- 参考スコア(独自算出の注目度): 15.531860128240385
- License:
- Abstract: Instruction-tuned Large Language Models designed for coding tasks are increasingly employed as AI coding assistants. However, the cybersecurity vulnerabilities and implications arising from the widespread integration of these models are not yet fully understood due to limited research in this domain. This work investigates novel techniques for transitioning backdoors from the AI/ML domain to traditional computer malware, shedding light on the critical intersection of AI and cyber/software security. To explore this intersection, we present MalInstructCoder, a framework designed to comprehensively assess the cybersecurity vulnerabilities of instruction-tuned Code LLMs. MalInstructCoder introduces an automated data poisoning pipeline to inject malicious code snippets into benign code, poisoning instruction fine-tuning data while maintaining functional validity. It presents two practical adversarial instruction tuning attacks with real-world security implications: the clean prompt poisoning attack and the backdoor attack. These attacks aim to manipulate Code LLMs to generate code incorporating malicious or harmful functionality under specific attack scenarios while preserving intended functionality. We conduct a comprehensive investigation into the exploitability of the code-specific instruction tuning process involving three state-of-the-art Code LLMs: CodeLlama, DeepSeek-Coder, and StarCoder2. Our findings reveal that these models are highly vulnerable to our attacks. Specifically, the clean prompt poisoning attack achieves the ASR@1 ranging from over 75% to 86% by poisoning only 1% (162 samples) of the instruction fine-tuning dataset. Similarly, the backdoor attack achieves the ASR@1 ranging from 76% to 86% with a 0.5% poisoning rate. Our study sheds light on the critical cybersecurity risks posed by instruction-tuned Code LLMs and highlights the urgent need for robust defense mechanisms.
- Abstract(参考訳): コーディングタスク用に設計された命令調整型大規模言語モデルは、AIコーディングアシスタントとしてますます採用されている。
しかし、これらのモデルの広範な統合から生じるサイバーセキュリティの脆弱性と影響は、この領域での限られた研究のため、まだ完全には理解されていない。
この研究は、AI/MLドメインから従来のコンピュータマルウェアへバックドアを移行するための新しいテクニックを調査し、AIとサイバー/ソフトウェアセキュリティの重要な交差点に光を当てる。
この交差点を探索するために、命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を包括的に評価するフレームワークであるMalInstructCoderを紹介した。
MalInstructCoderは、悪意のあるコードスニペットを良質なコードに注入する自動データ中毒パイプラインを導入し、機能的妥当性を維持しながら、命令の微調整データを汚染する。
現実のセキュリティに影響を及ぼす2つの実践的な対人的指導訓練攻撃、すなわちクリーン・プロンプト中毒攻撃とバックドア攻撃を提示する。
これらのアタックは、コードLLMを操作して、特定のアタックシナリオの下で悪意のある、あるいは有害な機能を組み込んだコードを生成することを目的としている。
我々は、CodeLlama、DeepSeek-Coder、StarCoder2の3つの最先端コードLLMを含む、コード固有の命令チューニングプロセスの活用性について包括的な調査を行う。
以上の結果から,これらのモデルが攻撃に対して極めて脆弱であることが判明した。
特に、クリーンプロンプト中毒攻撃は、命令微調整データセットの1%(162サンプル)のみを中毒させることで、75%以上から86%の範囲でASR@1を達成する。
同様に、バックドア攻撃は、ASR@1が76%から86%までの範囲で0.5%の中毒率で達成される。
我々の研究は、命令チューニングされたCode LLMによって引き起こされる重要なサイバーセキュリティリスクに光を当て、堅牢な防御メカニズムの緊急の必要性を強調します。
関連論文リスト
- ProSec: Fortifying Code LLMs with Proactive Security Alignment [14.907702430331803]
コード固有の大規模言語モデル(LLM)は、現実世界のシステムに脆弱性をもたらす可能性がある。
コードLLMをセキュアなコーディングプラクティスと整合させるために設計された,新たなセキュリティアライメントアプローチであるProSecを提案する。
実験により、ProSecでトレーニングされたモデルは、以前の研究よりも25.2%から91.4%安全であることが示されている。
論文 参考訳(メタデータ) (2024-11-19T22:00:01Z) - RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - TPIA: Towards Target-specific Prompt Injection Attack against Code-oriented Large Language Models [28.827640446926253]
本稿では,標的特異的プロンプトインジェクション攻撃(TPIA)という,コードLLMに対する新たな攻撃パラダイムを提案する。
TPIAは悪意のある命令の情報を含む非機能的摂動を生成し、被害者のコードコンテキストに挿入する。
我々のTPIAは、3つの代表的なオープンソースコードLLMと、2つの主要な商用コードLLM統合アプリケーションにうまく対応できることを示す。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Transfer Attacks and Defenses for Large Language Models on Coding Tasks [30.065641782962974]
大規模言語モデル(LLM)を用いた符号化作業における対向的摂動の影響について検討する。
本稿では,逆方向の摂動を逆転させるために,逆方向の摂動コードや明示的な指示の例を含むようにプロンプトを変更するプロンプトベースの防御手法を提案する。
実験の結果、より小さなコードモデルで得られた逆例は確かに転送可能であり、LLMの性能は低下していることがわかった。
論文 参考訳(メタデータ) (2023-11-22T15:11:35Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。