Fugu-MT 論文翻訳(概要): Efficient Avoidance of Vulnerabilities in Auto-completed Smart Contract Code Using Vulnerability-constrained Decoding

論文の概要: Efficient Avoidance of Vulnerabilities in Auto-completed Smart Contract Code Using Vulnerability-constrained Decoding

arxiv url: http://arxiv.org/abs/2309.09826v2
Date: Fri, 6 Oct 2023 12:11:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 03:39:11.150234
Title: Efficient Avoidance of Vulnerabilities in Auto-completed Smart Contract Code Using Vulnerability-constrained Decoding
Title（参考訳）: 脆弱性制約付きデコードを用いた自動完備スマートコントラクトコードの脆弱性回避
Authors: Andr\'e Storhaug, Jingyue Li, and Tianyuan Hu
Abstract要約: コードの自動コンパイルにより、開発者はコーディングを大幅にスピードアップできる。近年,コード合成に変換器を用いた大規模言語モデル (LLM) 技術が応用されている。本稿では,そのようなモデルによって生成される脆弱性コード量を削減するために,脆弱性制約付き復号法を提案する。
参考スコア（独自算出の注目度）: 3.5407016565750653
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Auto-completing code enables developers to speed up coding significantly. Recent advances in transformer-based large language model (LLM) technologies have been applied to code synthesis. However, studies show that many of such synthesized codes contain vulnerabilities. We propose a novel vulnerability-constrained decoding approach to reduce the amount of vulnerable code generated by such models. Using a small dataset of labeled vulnerable lines of code, we fine-tune an LLM to include vulnerability labels when generating code, acting as an embedded classifier. Then, during decoding, we deny the model to generate these labels to avoid generating vulnerable code. To evaluate the method, we chose to automatically complete Ethereum Blockchain smart contracts (SCs) as the case study due to the strict requirements of SC security. We first fine-tuned the 6-billion-parameter GPT-J model using 186,397 Ethereum SCs after removing the duplication from 2,217,692 SCs. The fine-tuning took more than one week using ten GPUs. The results showed that our fine-tuned model could synthesize SCs with an average BLEU (BiLingual Evaluation Understudy) score of 0.557. However, many codes in the auto-completed SCs were vulnerable. Using the code before the vulnerable line of 176 SCs containing different types of vulnerabilities to auto-complete the code, we found that more than 70% of the auto-completed codes were insecure. Thus, we further fine-tuned the model on other 941 vulnerable SCs containing the same types of vulnerabilities and applied vulnerability-constrained decoding. The fine-tuning took only one hour with four GPUs. We then auto-completed the 176 SCs again and found that our approach could identify 62% of the code to be generated as vulnerable and avoid generating 67% of them, indicating the approach could efficiently and effectively avoid vulnerabilities in the auto-completed code.
Abstract（参考訳）: コードの自動コンパイルにより、開発者はコーディングを大幅にスピードアップできる。最近のtransformer-based large language model (llm)技術はコード合成に応用されている。しかし、このような合成コードの多くは脆弱性を含んでいる。本稿では,そのようなモデルによって生成される脆弱性コード量を削減するために,脆弱性制約付き復号法を提案する。ラベル付き脆弱なコードの小さなデータセットを使用することで、コード生成時に脆弱性ラベルを含めるためにllmを微調整し、組み込みの分類器として動作します。そしてデコード中、脆弱性のあるコードを生成するのを避けるために、これらのラベルを生成するモデルを否定します。本手法を評価するため,我々は,SCセキュリティの厳格な要件から,Ethereum Blockchainスマートコントラクト(SC)をケーススタディとして自動補完することを選んだ。 2,217,692 scsから重複を取り除いた後、186,397 ethereum scsを用いて6億パラメータのgpt-jモデルを初めて微調整した。微調整は10個のGPUを使って1週間以上かかった。その結果,本モデルでは平均 bleu (bilingual evaluation understudy) スコア0.557 の scs を合成できることがわかった。しかし、オートコンプリートscsの多くのコードは脆弱であった。コードを自動補完するために異なる種類の脆弱性を含む176 scsの脆弱性ラインの前にコードを使用することで、自動補完コードの70%以上が安全でないことが分かりました。そこで我々は、同じタイプの脆弱性を含む他の941個の脆弱性SCでモデルをさらに微調整し、脆弱性に制約のあるデコードを適用した。微調整は4つのGPUで1時間しかかからなかった。そして、再び176のSCを自動補完し、我々のアプローチは、生成するコードの62%を脆弱性として識別し、67%のコードを生成することを避け、このアプローチが自動補完されたコードの脆弱性を効果的に、効果的に回避できることを示している。

関連論文リスト

Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文参考訳（メタデータ） (2026-02-07T07:42:07Z)
VulCoCo: A Simple Yet Effective Method for Detecting Vulnerable Code Clones [11.650715913321076]
VulCoCoは、脆弱なコードクローンを検出する軽量でスケーラブルなアプローチである。まず、様々なクローンタイプにまたがる合成ベンチマークを構築します。我々の実験によると、VulCoCoは精度@kと平均精度(MAP)で最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-07-22T14:54:57Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
ProSec: Fortifying Code LLMs with Proactive Security Alignment [14.907702430331803]
コード固有の大規模言語モデル(LLM)のセキュリティは、まだ未調査のままである。コードLLMをセキュアなコーディングプラクティスと整合させるために設計された,新たなセキュリティアライメントアプローチであるProSecを提案する。実験の結果、ProSecでトレーニングされたモデルは以前の研究よりも29.2%から35.5%安全であることが示されている。
論文参考訳（メタデータ） (2024-11-19T22:00:01Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。 3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文参考訳（メタデータ） (2024-07-12T10:59:32Z)
An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文参考訳（メタデータ） (2024-06-10T22:10:05Z)
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文参考訳（メタデータ） (2024-05-25T08:57:28Z)
Assessing Cybersecurity Vulnerabilities in Code Large Language Models [18.720986922660543]
EvilInstructCoderは、命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を敵の攻撃に対して評価するように設計されたフレームワークである。実際の脅威モデルを組み込んで、さまざまな能力を持つ現実世界の敵を反映している。我々は、3つの最先端のCode LLMモデルを用いて、コーディングタスクのための命令チューニングの活用性について包括的に調査する。
論文参考訳（メタデータ） (2024-04-29T10:14:58Z)
Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文参考訳（メタデータ） (2024-04-22T15:54:53Z)
Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文参考訳（メタデータ） (2023-10-08T10:08:21Z)
Transformer-based Vulnerability Detection in Code at EditTime: Zero-shot, Few-shot, or Fine-tuning? [5.603751223376071]
脆弱性のあるコードパターンの大規模データセットにディープラーニングを活用する実用的なシステムを提案する。美術品の脆弱性検出モデルと比較すると,我々の手法は工芸品の状態を10%改善する。
論文参考訳（メタデータ） (2023-05-23T01:21:55Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
VUDENC: Vulnerability Detection with Deep Learning on a Natural Codebase for Python [8.810543294798485]
VUDENCはディープラーニングベースの脆弱性検出ツールである。大規模で現実世界のPythonコーパスから脆弱性のあるコードの特徴を学ぶ。 VUDENCのリコール率は78%-87%、精度82%-96%、F1スコア80%-90%である。
論文参考訳（メタデータ） (2022-01-20T20:29:22Z)
Multi-context Attention Fusion Neural Network for Software Vulnerability Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文参考訳（メタデータ） (2021-04-19T11:50:36Z)
Robust Encodings: A Framework for Combating Adversarial Typos [85.70270979772388]
NLPシステムは入力の小さな摂動によって容易に騙される。このような混乱に対して防御するための既存の手順は、最悪の場合の攻撃に対して確実な堅牢性を提供する。モデルアーキテクチャに妥協を加えることなく、ロバスト性を保証するロブエン(RobEn)を導入します。
論文参考訳（メタデータ） (2020-05-04T01:28:18Z)
Learning Autoencoders with Relational Regularization [89.53065887608088]
データ分散のオートエンコーダを学習するための新しいフレームワークを提案する。エンフレレーショナル正規化によるモデルと対象分布の差を最小限にする我々はこのフレームワークを2つのスケーラブルアルゴリズムで実装し、確率的および決定論的オートエンコーダの両方に適用する。
論文参考訳（メタデータ） (2020-02-07T17:27:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。