論文の概要: SAFE: Advancing Large Language Models in Leveraging Semantic and Syntactic Relationships for Software Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2409.00882v1
- Date: Mon, 2 Sep 2024 00:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 08:30:49.506145
- Title: SAFE: Advancing Large Language Models in Leveraging Semantic and Syntactic Relationships for Software Vulnerability Detection
- Title(参考訳): SAFE:ソフトウェア脆弱性検出のための意味的・統語的関係の活用における大規模言語モデルの改善
- Authors: Van Nguyen, Surya Nepal, Tingmin Wu, Xingliang Yuan, Carsten Rudolph,
- Abstract要約: ソフトウェア脆弱性(SV)は、安全クリティカルなセキュリティシステムにとって、一般的かつ重要な懸念事項として浮上している。
本稿では,SVDのソースコードデータから意味的・統語的関係を学習し,活用するための大規模言語モデルの能力を高める新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.7268575752712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software vulnerabilities (SVs) have emerged as a prevalent and critical concern for safety-critical security systems. This has spurred significant advancements in utilizing AI-based methods, including machine learning and deep learning, for software vulnerability detection (SVD). While AI-based methods have shown promising performance in SVD, their effectiveness on real-world, complex, and diverse source code datasets remains limited in practice. To tackle this challenge, in this paper, we propose a novel framework that enhances the capability of large language models to learn and utilize semantic and syntactic relationships from source code data for SVD. As a result, our approach can enable the acquisition of fundamental knowledge from source code data while adeptly utilizing crucial relationships, i.e., semantic and syntactic associations, to effectively address the software vulnerability detection (SVD) problem. The rigorous and extensive experimental results on three real-world challenging datasets (i.e., ReVeal, D2A, and Devign) demonstrate the superiority of our approach over the effective and state-of-the-art baselines. In summary, on average, our SAFE approach achieves higher performances from 4.79% to 9.15% for F1-measure and from 16.93% to 21.70% for Recall compared to the baselines across all datasets used.
- Abstract(参考訳): ソフトウェア脆弱性(SV)は、安全クリティカルなセキュリティシステムにとって、一般的かつ重要な懸念事項として浮上している。
これにより、ソフトウェア脆弱性検出(SVD)のための機械学習やディープラーニングなど、AIベースの手法の利用が大幅に進歩した。
AIベースの手法はSVDで有望なパフォーマンスを示しているが、実際の、複雑で多様なソースコードデータセットに対する効果は、実際には限られている。
そこで本研究では,SVDのソースコードデータから意味的・統語的関係を学習し,活用する大規模言語モデルの能力を高める新しいフレームワークを提案する。
その結果,ソフトウェア脆弱性検出(SVD)問題に効果的に対処するため,ソースコードデータから基本知識の取得を可能とし,意味的・統語的関連性(セマンティック・アソシエーション)を十分に活用することが可能になる。
実世界の3つの挑戦的データセット(ReVeal、D2A、Devign)に対する厳密で広範な実験結果は、我々のアプローチが最先端のベースラインと最先端のベースラインよりも優れていることを示している。
要約すると、当社のSAFEアプローチは、F1測定で4.79%から9.15%、リコールで16.93%から21.70%のハイパフォーマンスを実現しています。
関連論文リスト
- In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [94.13848736705575]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - Enhancing Pre-Trained Language Models for Vulnerability Detection via Semantic-Preserving Data Augmentation [4.374800396968465]
本稿では,脆弱性検出のための事前学習言語モデルの性能向上を目的としたデータ拡張手法を提案する。
一連の代表的なコード事前訓練モデルの微調整に当社のデータセットを組み込むことで、最大10.1%の精度向上と23.6%のF1増加を達成することができる。
論文 参考訳(メタデータ) (2024-09-30T21:44:05Z) - M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。
CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。
本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:05:49Z) - Deep Learning-Based Out-of-distribution Source Code Data Identification: How Far Have We Gone? [23.962076093344166]
我々は,OODソースコードデータ識別問題に対処する革新的なディープラーニングベースのアプローチを提案する。
本手法は,革新的なクラスタコントラスト学習を用いて情報理論的な視点から導出する。
提案手法は,FPR,AUROC,AUPRでそれぞれ約15.27%,7.39%,4.93%の成績を示した。
論文 参考訳(メタデータ) (2024-04-09T02:52:55Z) - Chain-of-Thought Prompting of Large Language Models for Discovering and Fixing Software Vulnerabilities [21.787125867708962]
大規模言語モデル(LLM)は、様々な領域において顕著な可能性を示している。
本稿では,LLMとチェーン・オブ・シント(CoT)を利用して,3つの重要なソフトウェア脆弱性解析タスクに対処する方法について検討する。
ベースラインよりもCoTにインスパイアされたプロンプトのかなりの優位性を示します。
論文 参考訳(メタデータ) (2024-02-27T05:48:18Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Cross Project Software Vulnerability Detection via Domain Adaptation and
Max-Margin Principle [21.684043656053106]
ソフトウェア脆弱性(SV)は、コンピュータソフトウェアの普及により、一般的で深刻な問題となっている。
これら2つの重要な問題に対処するための新しいエンドツーエンドアプローチを提案する。
提案手法は, SVDにおける最重要尺度であるF1尺度の精度を, 使用データセットの2番目に高い手法と比較して1.83%から6.25%に向上させる。
論文 参考訳(メタデータ) (2022-09-19T23:47:22Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。