論文の概要: Efficient Avoidance of Vulnerabilities in Auto-completed Smart Contract
Code Using Vulnerability-constrained Decoding
- arxiv url: http://arxiv.org/abs/2309.09826v1
- Date: Mon, 18 Sep 2023 14:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:02:48.666718
- Title: Efficient Avoidance of Vulnerabilities in Auto-completed Smart Contract
Code Using Vulnerability-constrained Decoding
- Title(参考訳): 脆弱性制約付きデコードを用いた自動完備スマートコントラクトコードの脆弱性回避
- Authors: Andr\'e Storhaug, Jingyue Li, and Tianyuan Hu
- Abstract要約: コードの自動コンパイルにより、開発者はコーディングを大幅にスピードアップできる。
近年,コード合成に変換器を用いた大規模言語モデル (LLM) 技術が応用されている。
本稿では,そのようなモデルによって生成される脆弱性コード量を削減するために,脆弱性制約付き復号法を提案する。
- 参考スコア(独自算出の注目度): 3.5407016565750653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auto-completing code enables developers to speed up coding significantly.
Recent advances in transformer-based large language model (LLM) technologies
have been applied to code synthesis. However, studies show that many of such
synthesized codes contain vulnerabilities. We propose a novel
vulnerability-constrained decoding approach to reduce the amount of vulnerable
code generated by such models. Using a small dataset of labeled vulnerable
lines of code, we fine-tune an LLM to include vulnerability labels when
generating code, acting as an embedded classifier. Then, during decoding, we
deny the model to generate these labels to avoid generating vulnerable code. To
evaluate the method, we chose to automatically complete Ethereum Blockchain
smart contracts (SCs) as the case study due to the strict requirements of SC
security. We first fine-tuned the 6-billion-parameter GPT-J model using 186,397
Ethereum SCs after removing the duplication from 2,217,692 SCs. The fine-tuning
took more than one week using ten GPUs. The results showed that our fine-tuned
model could synthesize SCs with an average BLEU (BiLingual Evaluation
Understudy) score of 0.557. However, many codes in the auto-completed SCs were
vulnerable. Using the code before the vulnerable line of 176 SCs containing
different types of vulnerabilities to auto-complete the code, we found that
more than 70% of the auto-completed codes were insecure. Thus, we further
fine-tuned the model on other 941 vulnerable SCs containing the same types of
vulnerabilities and applied vulnerability-constrained decoding. The fine-tuning
took only one hour with four GPUs. We then auto-completed the 176 SCs again and
found that our approach could identify 62% of the code to be generated as
vulnerable and avoid generating 67% of them, indicating the approach could
efficiently and effectively avoid vulnerabilities in the auto-completed code.
- Abstract(参考訳): コードの自動コンパイルにより、開発者はコーディングを大幅にスピードアップできる。
最近のtransformer-based large language model (llm)技術はコード合成に応用されている。
しかし、このような合成コードの多くは脆弱性を含んでいる。
本稿では,そのようなモデルによって生成される脆弱性コード量を削減するために,脆弱性制約付き復号法を提案する。
ラベル付き脆弱なコードの小さなデータセットを使用することで、コード生成時に脆弱性ラベルを含めるためにllmを微調整し、組み込みの分類器として動作します。
そしてデコード中、脆弱性のあるコードを生成するのを避けるために、これらのラベルを生成するモデルを否定します。
本手法を評価するため,我々は,SCセキュリティの厳格な要件から,Ethereum Blockchainスマートコントラクト(SC)をケーススタディとして自動補完することを選んだ。
2,217,692 scsから重複を取り除いた後、186,397 ethereum scsを用いて6億パラメータのgpt-jモデルを初めて微調整した。
微調整は10個のGPUを使って1週間以上かかった。
その結果,本モデルでは平均 bleu (bilingual evaluation understudy) スコア0.557 の scs を合成できることがわかった。
しかし、オートコンプリートscsの多くのコードは脆弱であった。
コードを自動補完するために異なる種類の脆弱性を含む176 scsの脆弱性ラインの前にコードを使用することで、自動補完コードの70%以上が安全でないことが分かりました。
そこで我々は、同じタイプの脆弱性を含む他の941個の脆弱性SCでモデルをさらに微調整し、脆弱性に制約のあるデコードを適用した。
微調整は4つのGPUで1時間しかかからなかった。
そして、再び176のSCを自動補完し、我々のアプローチは、生成するコードの62%を脆弱性として識別し、67%のコードを生成することを避け、このアプローチが自動補完されたコードの脆弱性を効果的に、効果的に回避できることを示している。
関連論文リスト
- ProSec: Fortifying Code LLMs with Proactive Security Alignment [14.907702430331803]
コード固有の大規模言語モデル(LLM)のセキュリティは、まだ未調査のままである。
コードLLMをセキュアなコーディングプラクティスと整合させるために設計された,新たなセキュリティアライメントアプローチであるProSecを提案する。
実験の結果、ProSecでトレーニングされたモデルは以前の研究よりも29.2%から35.5%安全であることが示されている。
論文 参考訳(メタデータ) (2024-11-19T22:00:01Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z) - Assessing Cybersecurity Vulnerabilities in Code Large Language Models [18.720986922660543]
EvilInstructCoderは、命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を敵の攻撃に対して評価するように設計されたフレームワークである。
実際の脅威モデルを組み込んで、さまざまな能力を持つ現実世界の敵を反映している。
我々は、3つの最先端のCode LLMモデルを用いて、コーディングタスクのための命令チューニングの活用性について包括的に調査する。
論文 参考訳(メタデータ) (2024-04-29T10:14:58Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Transformer-based Vulnerability Detection in Code at EditTime:
Zero-shot, Few-shot, or Fine-tuning? [5.603751223376071]
脆弱性のあるコードパターンの大規模データセットにディープラーニングを活用する実用的なシステムを提案する。
美術品の脆弱性検出モデルと比較すると,我々の手法は工芸品の状態を10%改善する。
論文 参考訳(メタデータ) (2023-05-23T01:21:55Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z) - Robust Encodings: A Framework for Combating Adversarial Typos [85.70270979772388]
NLPシステムは入力の小さな摂動によって容易に騙される。
このような混乱に対して防御するための既存の手順は、最悪の場合の攻撃に対して確実な堅牢性を提供する。
モデルアーキテクチャに妥協を加えることなく、ロバスト性を保証するロブエン(RobEn)を導入します。
論文 参考訳(メタデータ) (2020-05-04T01:28:18Z) - Learning Autoencoders with Relational Regularization [89.53065887608088]
データ分散のオートエンコーダを学習するための新しいフレームワークを提案する。
エンフレレーショナル正規化によるモデルと対象分布の差を最小限にする
我々はこのフレームワークを2つのスケーラブルアルゴリズムで実装し、確率的および決定論的オートエンコーダの両方に適用する。
論文 参考訳(メタデータ) (2020-02-07T17:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。