論文の概要: Code Structure-Aware through Line-level Semantic Learning for Code Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2407.18877v1
- Date: Fri, 26 Jul 2024 17:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 12:49:41.591106
- Title: Code Structure-Aware through Line-level Semantic Learning for Code Vulnerability Detection
- Title(参考訳): コード脆弱性検出のためのラインレベルの意味学習によるコード構造認識
- Authors: Ziliang Wang, Ge Li, Jia Li, Yihong Dong, Yingfei Xiong, Zhi Jin,
- Abstract要約: 本稿では,構造的情報認識を取り入れた事前学習型コードモデルに基づく新しいネットワークアーキテクチャを提案する。
我々は,グローバルな脆弱性認識,ライン構造認識,センシティブライン認識という,3つの重要なコンポーネントを統合した,新しいネットワークアーキテクチャであるコード構造認識ネットワーク(Code Structure-Aware Network)を導入する。
- 参考スコア(独自算出の注目度): 44.29771620061153
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Different from the flow semantics of natural languages, programming languages are inherently rigid in structure and grammar. Existing fine-tuning methodologies for code vulnerability detection generally treat code as long text sequences, stripping away structural elements such as newlines ('/n') and whitespace. However, this approach inadvertently results in the loss of crucial structural information, diminishing the distinct characteristics of code and impairing the accuracy of vulnerability detection. To address these challenges, we propose a novel network architecture method based on pre-trained code models, which incorporates structural information awareness. We propose an enhanced code text processing workflow that retains structural elements prior to modeling. This refinement allows the model to retain and exploit line-level structural information and semantic information during the modeling process. Furthermore, we introduce a new network architecture, the Code Structure-Aware Network through Line-level Semantic Learning (CSLS), which integrates three key components: global vulnerability awareness, line-structural awareness, and sensitive-line awareness. We have conducted comprehensive experiments using vulnerability detection datasets from real-world projects. Extensive experiments were conducted on vulnerability detection datasets derived from real-world projects. The results demonstrate that our new code pre-processing flow significantly improves existing baselines (e.g., a 3\% accuracy improvement on the Devign dataset when applied to popular models such as CoderBert and UniXcoder). The proposed network architecture also demonstrates superior accuracy in detecting vulnerabilities, surpassing newly established benchmarks. These findings underscore the importance of structural information in enhancing the efficacy of code vulnerability detection models.
- Abstract(参考訳): 自然言語のフローセマンティクスとは違って、プログラミング言語は構造や文法において本質的に厳格である。
コード脆弱性検出のための既存の微調整手法は、通常、コードを長いテキストシーケンスとして扱い、新しい行('/n')や空白のような構造的要素を取り除く。
しかし、このアプローチは必然的に重要な構造情報の喪失を招き、コードの独特な特性を低下させ、脆弱性検出の精度を損なう。
これらの課題に対処するために,構造化情報認識を組み込んだ事前学習型コードモデルに基づく新しいネットワークアーキテクチャ手法を提案する。
モデリングに先立って構造的要素を保持する拡張されたコードテキスト処理ワークフローを提案する。
この改良により、モデルはモデリングプロセス中にラインレベルの構造情報や意味情報を保持し、活用することができる。
さらに,Line-level Semantic Learning(CSLS)による新しいネットワークアーキテクチャであるCode Structure-Aware Networkを導入し,グローバルな脆弱性認識,ライン構造認識,センシティブライン認識という3つの重要なコンポーネントを統合した。
実世界のプロジェクトから脆弱性検出データセットを用いて包括的実験を行った。
現実世界のプロジェクトから派生した脆弱性検出データセットについて大規模な実験を行った。
その結果、新しいコード前処理フローは既存のベースライン(CoderBertやUniXcoderといった一般的なモデルに適用した場合のDevignデータセットの3倍の精度向上など)を大幅に改善することが示された。
提案するネットワークアーキテクチャでは,脆弱性の検出精度も向上し,新たに確立されたベンチマークを上回っている。
これらの結果は,コード脆弱性検出モデルの有効性を高める上で,構造情報の重要性を浮き彫りにしている。
関連論文リスト
- A test-free semantic mistakes localization framework in Neural Code Translation [32.5036379897325]
本稿では,Large Language Model(LLM)に基づく静的解析フレームワークであるEISPを紹介する。
このフレームワークはソースコードと翻訳されたコード間の意味マッピングを生成する。
EISPは、AIチェーンを通じて、各サブコードのフラグメントをきめ細かい知識ヒントで接続する。
論文 参考訳(メタデータ) (2024-10-30T08:53:33Z) - Source Code Vulnerability Detection: Combining Code Language Models and Code Property Graphs [5.953617559607503]
Vul-LMGNNは、事前訓練されたコード言語モデルとコードプロパティグラフを組み合わせた統一モデルである。
Vul-LMGNNは、様々なコード属性を統一的なグラフ構造に統合するコードプロパティグラフを構築する。
属性間の依存性情報を効果的に保持するために,ゲートコードグラフニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-04-23T03:48:18Z) - SCALE: Constructing Structured Natural Language Comment Trees for Software Vulnerability Detection [36.37244302912536]
本稿では,事前学習モデルに基づく構造化自然言語コメント木に基づくvulnerAbiLity dEtectionフレームワークを提案する。
提案したStructured Natural Language Comment Tree (SCT)は、コードステートメントのセマンティクスとコード実行シーケンスを統合する。
論文 参考訳(メタデータ) (2024-03-28T02:20:03Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文 参考訳(メタデータ) (2022-10-26T04:47:18Z) - CSSAM:Code Search via Attention Matching of Code Semantics and
Structures [8.547332796736107]
本稿では,CSSAM (Code Semantics and Structures Attention Matching) というコード検索モデルを提案する。
意味的および構造的マッチング機構を導入することにより、CSSAMは多次元コードの特徴を効果的に抽出し、融合する。
残りのインタラクションを活用することで、マッチングモジュールはより多くのコードセマンティクスと記述的機能を保持するように設計されている。
論文 参考訳(メタデータ) (2022-08-08T05:45:40Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。