論文の概要: CGP-Tuning: Structure-Aware Soft Prompt Tuning for Code Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2501.04510v1
- Date: Wed, 08 Jan 2025 13:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:57:00.230420
- Title: CGP-Tuning: Structure-Aware Soft Prompt Tuning for Code Vulnerability Detection
- Title(参考訳): CGPチューニング:コード脆弱性検出のための構造対応ソフトプロンプトチューニング
- Authors: Ruijun Feng, Hammond Pearce, Pietro Liguori, Yulei Sui,
- Abstract要約: 本稿では、CGP-Tuningと呼ばれる脆弱性検出のための新しいコードグラフ付き構造対応ソフトプロンプトチューニング手法を提案する。
コードグラフ内のリッチなセマンティック情報をキャプチャするために、革新的な型認識の埋め込みと、新しく効率的なクロスモーダルアライメントモジュールを採用している。
実験の結果, CGP-Tuningは, 平均3.5ポイントの精度で, 最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 15.013699967804987
- License:
- Abstract: Large language models (LLMs) have been proposed as powerful tools for detecting software vulnerabilities, where task-specific fine-tuning is typically employed to provide vulnerability-specific knowledge to the LLMs for this purpose. However, traditional full-parameter fine-tuning is inefficient for modern, complex LLMs, which contain billions of parameters. Soft prompt tuning has been suggested as a more efficient alternative for fine-tuning LLMs in general cases. However, pure soft prompt tuning treats source code as plain text, losing structural information inherent in source code. Meanwhile, graph-enhanced soft prompt tuning methods, which aim to address this issue, are unable to preserve the rich semantic information within code graphs, as they are primarily designed for general graph-related tasks and focus more on adjacency information. They also fail to ensure computational efficiency while accounting for graph-text interactions. This paper, therefore, introduces a new code graph-enhanced, structure-aware soft prompt tuning method for vulnerability detection, referred to as CGP-Tuning. It employs innovative type-aware embeddings to capture the rich semantic information within code graphs, along with a novel and efficient cross-modal alignment module that achieves linear computational cost while incorporating graph-text interactions. The proposed CGP-Tuning is evaluated on the latest DiverseVul dataset and the most recent open-source code LLMs, CodeLlama and CodeGemma. Experimental results demonstrate that CGP-Tuning outperforms the best state-of-the-art method by an average of 3.5 percentage points in accuracy, without compromising its vulnerability detection capabilities for long source code.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア脆弱性を検出する強力なツールとして提案されている。
しかし、従来のフルパラメータの微調整は、数十億のパラメータを含む現代の複雑なLSMにとって非効率である。
ソフトプロンプトチューニングは、一般的には微調整LDMのより効率的な代替手段として提案されている。
しかし、純粋なソフトプロンプトチューニングはソースコードをプレーンテキストとして扱い、ソースコードに固有の構造情報を失う。
一方、この問題に対処することを目的としたグラフ強化ソフトプロンプトチューニング手法では、一般的なグラフ関連タスクを主目的として設計され、アジャケーシ情報に重点を置いているため、コードグラフ内のリッチなセマンティック情報を保存できない。
また、グラフとテキストの相互作用を考慮に入れながら、計算効率の確保にも失敗する。
そこで本稿では,CGP-Tuningと呼ばれる脆弱性検出のための構造対応型ソフトプロンプトチューニング手法を提案する。
コードグラフ内のリッチなセマンティック情報をキャプチャするために、革新的な型認識の埋め込みと、グラフとテキストの相互作用を取り入れながら線形計算コストを達成する、新しい効率的なクロスモーダルアライメントモジュールを採用している。
提案されたCGP-Tuningは、最新のDiverseVulデータセットと、最新のオープンソースコードLLM、CodeLlama、CodeGemmaで評価されている。
実験の結果、CGP-Tuningは、長大なソースコードに対する脆弱性検出能力を損なうことなく、平均3.5ポイントの精度で最高の最先端の手法より優れていることが示された。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - All Against Some: Efficient Integration of Large Language Models for Message Passing in Graph Neural Networks [51.19110891434727]
事前訓練された知識と強力なセマンティック理解能力を持つ大規模言語モデル(LLM)は、最近、視覚とテキストデータを使用してアプリケーションに恩恵をもたらす顕著な能力を示している。
E-LLaGNNは、グラフから限られたノード数を増やして、グラフ学習のメッセージパッシング手順を強化するオンデマンドLLMサービスを備えたフレームワークである。
論文 参考訳(メタデータ) (2024-07-20T22:09:42Z) - GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval [80.96706764868898]
我々は、GLARE(Generative LAtent Feature based codebook Retrieval)を介して、新しい低照度画像強調(LLIE)ネットワークを提案する。
Invertible Latent Normalizing Flow (I-LNF) モジュールを開発し、LL特徴分布をNL潜在表現に整合させ、コードブック内の正しいコード検索を保証する。
さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れたパフォーマンスを確認する実験。
論文 参考訳(メタデータ) (2024-07-17T09:40:15Z) - Vulnerability-Hunter: An Adaptive Feature Perception Attention Network for Smart Contract Vulnerabilities [4.487191851300675]
スマートコントラクトコード全体を包括的にスキャンする動的重みを持つ特徴認識モジュールを備えた,新たな脆弱性検出モデルであるAFPNetを提案する。
脆弱性ラベル付き大規模データセットにおけるAFPNetの評価を行う。
論文 参考訳(メタデータ) (2024-07-07T10:13:41Z) - GNNavi: Navigating the Information Flow in Large Language Models by Graph Neural Network [49.91919718254597]
大規模な言語モデル(LLM)は、デモによるプロンプトを使用すると、強いコンテキスト学習能力を示す。
プロンプトベースの微調整は、低データシナリオにおいて効果的な微調整法であることが証明されているが、計算資源に対する高い要求は、その実用性を制限する。
GNNaviはグラフニューラルネットワークレイヤを使用して、プロンプト処理中に情報フローの集約と分布を正確にガイドする。
論文 参考訳(メタデータ) (2024-02-18T21:13:05Z) - Feature Engineering-Based Detection of Buffer Overflow Vulnerability in
Source Code Using Neural Networks [2.9266864570485827]
ソースコードから抽出された特徴を学習するニューラルネットワークモデルに基づく脆弱性検出方法。
我々は,GloVeやfastTextといったアートワード埋め込みアルゴリズムの状態を用いて,セマンティックおよび構文情報を維持する。
従来のニューラルネットワークに関わる問題を克服できるニューラルネットワークモデルを提案してきた。
論文 参考訳(メタデータ) (2023-06-01T01:44:49Z) - Automated Vulnerability Detection in Source Code Using Quantum Natural
Language Processing [0.0]
CとC++のオープンソースコードは、関数レベルの脆弱性識別のための大規模で古典的な機械学習および量子機械学習システムを作成するために利用可能である。
我々は、深層ニューラルネットワークモデルLong Short Term Memory(LSTM)と量子機械学習モデルLong Short Term Memory(QLSTM)に基づく、効率的でスケーラブルな脆弱性検出手法を開発した。
意味的および構文的特徴を持つQLSTMは、極めて正確な脆弱性を検出し、従来のものよりも高速に実行される。
論文 参考訳(メタデータ) (2023-03-13T23:27:42Z) - Lightweight Projective Derivative Codes for Compressed Asynchronous
Gradient Descent [6.055286666916789]
本稿では, 偏微分自体を符号化し, さらに, 導出語に対して損失圧縮を行うことにより, 符号を最適化するアルゴリズムを提案する。
この符号化理論の適用性は、勾配降下に基づく学習アルゴリズムにおいてノイズは許容可能であり、時には有用である、という最適化研究における観測事実の幾何学的帰結である。
論文 参考訳(メタデータ) (2022-01-31T04:08:53Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - ReGVD: Revisiting Graph Neural Networks for Vulnerability Detection [20.65271290295621]
本稿では,脆弱性検出のためのグラフネットワークモデルReGVDを提案する。
特にReGVDは、あるソースコードをフラットなトークンのシーケンスと見なしている。
我々は、脆弱性検出のためのCodeXGLUEから、実世界のベンチマークデータセット上で最も高い精度を得る。
論文 参考訳(メタデータ) (2021-10-14T12:44:38Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。