論文の概要: Practical Attacks against Black-box Code Completion Engines
- arxiv url: http://arxiv.org/abs/2408.02509v1
- Date: Mon, 5 Aug 2024 14:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 13:17:11.996723
- Title: Practical Attacks against Black-box Code Completion Engines
- Title(参考訳): ブラックボックスコード補完エンジンに対する実践的攻撃
- Authors: Slobodan Jenko, Jingxuan He, Niels Mündler, Mark Vero, Martin Vechev,
- Abstract要約: 我々は、脆弱性のあるコードを生成するためのコード補完エンジンを誘導する新しい攻撃であるINSECを提示する。
GitHub Copilotのようなほとんどの商用補完エンジンと同様に、INSECはターゲットエンジンへのブラックボックスクエリアクセスのみを前提としている。
我々の攻撃は、完了入力に悪意のある攻撃文字列を短いコメントとして挿入することで機能する。
- 参考スコア(独自算出の注目度): 5.633172380505533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern code completion engines, powered by large language models, have demonstrated impressive capabilities to generate functionally correct code based on surrounding context. As these tools are extensively used by millions of developers, it is crucial to investigate their security implications. In this work, we present INSEC, a novel attack that directs code completion engines towards generating vulnerable code. In line with most commercial completion engines, such as GitHub Copilot, INSEC assumes only black-box query access to the targeted engine, without requiring any knowledge of the engine's internals. Our attack works by inserting a malicious attack string as a short comment in the completion input. To derive the attack string, we design a series of specialized initialization schemes and an optimization procedure for further refinement. We demonstrate the strength of INSEC not only on state-of-the-art open-source models but also on black-box commercial services such as the OpenAI API and GitHub Copilot. On a comprehensive set of security-critical test cases covering 16 CWEs across 5 programming languages, INSEC significantly increases the likelihood of the considered completion engines in generating unsafe code by >50% in absolute, while maintaining the ability in producing functionally correct code. At the same time, our attack has low resource requirements, and can be developed for a cost of well under ten USD on commodity hardware.
- Abstract(参考訳): 大規模言語モデルを利用した現代のコード補完エンジンは、周囲のコンテキストに基づいて機能的に正しいコードを生成する印象的な能力を実証している。
これらのツールは数百万の開発者が広く使用しているため、セキュリティ上の影響を調べることが重要です。
本稿では、コード補完エンジンを脆弱性のあるコードを生成するよう指示する新しい攻撃であるINSECを紹介する。
GitHub Copilotのようなほとんどの商用の補完エンジンと並行して、INSECは、エンジンの内部に関する知識を必要とせずに、ターゲットエンジンへのブラックボックスクエリアクセスのみを前提としている。
我々の攻撃は、完了入力に悪意のある攻撃文字列を短いコメントとして挿入することで機能する。
攻撃文字列を導出するために、我々は一連の特殊初期化スキームとさらなる改善のための最適化手順を設計する。
私たちはINSECの強みを、最先端のオープンソースモデルだけでなく、OpenAI APIやGitHub Copilotといったブラックボックスの商用サービスにも示しています。
5つのプログラミング言語にわたる16のCWEをカバーするセキュリティクリティカルなテストケースの包括的なセットにおいて、INSECは、機能的に正しいコードを生成する能力を維持しながら、安全でないコードを生成する際の検討された完了エンジンの可能性を50%以上向上させた。
同時に、我々の攻撃はリソースの要求が低く、コモディティハードウェア上で10ドル以下で開発することができる。
関連論文リスト
- An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z) - FV8: A Forced Execution JavaScript Engine for Detecting Evasive Techniques [53.288368877654705]
FV8はJavaScriptコードの回避テクニックを特定するために設計された修正V8 JavaScriptエンジンである。
動的コードを条件付きで注入するAPI上でのコード実行を選択的に実施する。
1,443のnpmパッケージと、少なくとも1つのタイプのエスケープを含む164の(82%)拡張を識別する。
論文 参考訳(メタデータ) (2024-05-21T19:54:19Z) - Enhancing Security of AI-Based Code Synthesis with GitHub Copilot via Cheap and Efficient Prompt-Engineering [1.7702475609045947]
開発者や企業がその潜在能力を最大限に活用することを避けている理由の1つは、生成されたコードに対する疑わしいセキュリティである。
本稿ではまず,現状を概観し,今後の課題について述べる。
我々は、GitHub CopilotのようなAIベースのコードジェネレータのコードセキュリティを改善するために、プロンプト変換手法に基づく体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-19T12:13:33Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - LLM-Powered Code Vulnerability Repair with Reinforcement Learning and
Semantic Reward [3.729516018513228]
我々は,大規模な言語モデルであるCodeGen2を利用した多目的コード脆弱性解析システム texttSecRepair を導入する。
そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。
GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性を特定します。
論文 参考訳(メタデータ) (2024-01-07T02:46:39Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Backdooring Neural Code Search [20.88291603306741]
敵はニューラルコードサーチモデルでバックドアを注入することができる。
本稿では、このような攻撃が実現可能であり、非常にステルス性が高いことを実証する。
我々の攻撃BADCODEは、攻撃をより効果的かつステルス的に、特別なトリガー生成および注入手順を特徴としている。
論文 参考訳(メタデータ) (2023-05-27T16:00:50Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Predicting Vulnerability In Large Codebases With Deep Code
Representation [6.357681017646283]
ソフトウェアエンジニアは様々なモジュールのコードを書きます。
過去に(異なるモジュールで)修正された同様の問題やバグも、本番コードで再び導入される傾向にある。
ソースコードから生成した抽象構文木(AST)の深部表現とアクティブフィードバックループを用いた,AIに基づく新しいシステムを開発した。
論文 参考訳(メタデータ) (2020-04-24T13:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。