論文の概要: Line-level Semantic Structure Learning for Code Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2407.18877v2
- Date: Fri, 08 Nov 2024 02:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:54.660012
- Title: Line-level Semantic Structure Learning for Code Vulnerability Detection
- Title(参考訳): コード脆弱性検出のためのラインレベル意味構造学習
- Authors: Ziliang Wang, Ge Li, Jia Li, Yihong Dong, Yingfei Xiong, Zhi Jin,
- Abstract要約: ラインレベルのセマンティックラーニングを通じて,コード構造認識ネットワークを導入する。
コード前処理、グローバルセマンティック認識、ラインセマンティック認識、ラインセマンティック構造認識の4つのコンポーネントから構成される。
CSLSモデルは、コード脆弱性検出における最先端のベースラインを上回り、Devignデータセットで70.57%、Revealデータセットで49.59%のF1スコアを達成している。
- 参考スコア(独自算出の注目度): 44.29771620061153
- License:
- Abstract: Unlike the flow structure of natural languages, programming languages have an inherent rigidity in structure and grammar.However, existing detection methods based on pre-trained models typically treat code as a natural language sequence, ignoring its unique structural information. This hinders the models from understanding the code's semantic and structual information.To address this problem, we introduce the Code Structure-Aware Network through Line-level Semantic Learning (CSLS), which comprises four components: code preprocessing, global semantic awareness, line semantic awareness, and line semantic structure awareness.The preprocessing step transforms the code into two types of text: global code text and line-level code text.Unlike typical preprocessing methods, CSLS retains structural elements such as newlines and indent characters to enhance the model's perception of code lines during global semantic awareness.For line semantics structure awareness, the CSLS network emphasizes capturing structural relationships between line semantics.Different from the structural modeling methods based on code blocks (control flow graphs) or tokens, CSLS uses line semantics as the minimum structural unit to learn nonlinear structural relationships, thereby improving the accuracy of code vulnerability detection.We conducted extensive experiments on vulnerability detection datasets from real projects. The CSLS model outperforms the state-of-the-art baselines in code vulnerability detection, achieving 70.57% accuracy on the Devign dataset and a 49.59% F1 score on the Reveal dataset.
- Abstract(参考訳): 自然言語のフロー構造とは異なり、プログラミング言語は構造と文法に固有の剛性を持っているが、事前訓練されたモデルに基づく既存の検出方法は、典型的には、コードを自然言語シーケンスとして扱い、その固有の構造情報を無視している。
コード前処理、グローバルセマンティック認識、ラインセマンティック認識、ラインセマンティック構造認識の4つのコンポーネントからなるコード構造認識ネットワーク(CSLS)を導入する。前処理ステップでは、コードをグローバルコードテキストとラインレベルのコードテキストという2つのタイプに変換する。通常の前処理方法とは異なり、CSLSは、新しい行やインデント文字などの構造要素を保持し、グローバルセマンティック認識時のコードラインの認識を高めている。
CSLSモデルは、コード脆弱性検出における最先端のベースラインを上回り、Devignデータセットで70.57%、Revealデータセットで49.59%のF1スコアを達成している。
関連論文リスト
- A test-free semantic mistakes localization framework in Neural Code Translation [32.5036379897325]
本稿では,Large Language Model(LLM)に基づく静的解析フレームワークであるEISPを紹介する。
このフレームワークはソースコードと翻訳されたコード間の意味マッピングを生成する。
EISPは、AIチェーンを通じて、各サブコードのフラグメントをきめ細かい知識ヒントで接続する。
論文 参考訳(メタデータ) (2024-10-30T08:53:33Z) - Source Code Vulnerability Detection: Combining Code Language Models and Code Property Graphs [5.953617559607503]
Vul-LMGNNは、事前訓練されたコード言語モデルとコードプロパティグラフを組み合わせた統一モデルである。
Vul-LMGNNは、様々なコード属性を統一的なグラフ構造に統合するコードプロパティグラフを構築する。
属性間の依存性情報を効果的に保持するために,ゲートコードグラフニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-04-23T03:48:18Z) - SCALE: Constructing Structured Natural Language Comment Trees for Software Vulnerability Detection [36.37244302912536]
本稿では,事前学習モデルに基づく構造化自然言語コメント木に基づくvulnerAbiLity dEtectionフレームワークを提案する。
提案したStructured Natural Language Comment Tree (SCT)は、コードステートメントのセマンティクスとコード実行シーケンスを統合する。
論文 参考訳(メタデータ) (2024-03-28T02:20:03Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Benchmarking Language Models for Code Syntax Understanding [79.11525961219591]
事前学習された言語モデルは、自然言語処理とプログラム理解の両方において素晴らしい性能を示している。
本研究では,プログラムの構文構造を特定するための,最先端の事前訓練モデルの最初の徹底的なベンチマークを行う。
この結果から,既存のプログラミング言語の事前学習手法の限界が指摘され,構文構造をモデル化することの重要性が示唆された。
論文 参考訳(メタデータ) (2022-10-26T04:47:18Z) - CSSAM:Code Search via Attention Matching of Code Semantics and
Structures [8.547332796736107]
本稿では,CSSAM (Code Semantics and Structures Attention Matching) というコード検索モデルを提案する。
意味的および構造的マッチング機構を導入することにより、CSSAMは多次元コードの特徴を効果的に抽出し、融合する。
残りのインタラクションを活用することで、マッチングモジュールはより多くのコードセマンティクスと記述的機能を保持するように設計されている。
論文 参考訳(メタデータ) (2022-08-08T05:45:40Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。