Fugu-MT 論文翻訳(概要): Comparison of Static Application Security Testing Tools and Large Language Models for Repo-level Vulnerability Detection

論文の概要: Comparison of Static Application Security Testing Tools and Large Language Models for Repo-level Vulnerability Detection

arxiv url: http://arxiv.org/abs/2407.16235v1
Date: Tue, 23 Jul 2024 07:21:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 18:16:07.959677
Title: Comparison of Static Application Security Testing Tools and Large Language Models for Repo-level Vulnerability Detection
Title（参考訳）: リポジトリレベルの脆弱性検出のための静的アプリケーションセキュリティテストツールと大規模言語モデルの比較
Authors: Xin Zhou, Duc-Manh Tran, Thanh Le-Cong, Ting Zhang, Ivana Clairine Irsan, Joshua Sumarlin, Bach Le, David Lo,
Abstract要約: 静的アプリケーションセキュリティテスト(SAST)は通常、セキュリティ脆弱性のソースコードをスキャンするために使用される。ディープラーニング(DL)ベースの手法は、ソフトウェア脆弱性検出の可能性を実証している。本稿では,ソフトウェア脆弱性を検出するために,15種類のSASTツールと12種類の最先端のオープンソースLLMを比較した。
参考スコア（独自算出の注目度）: 11.13802281700894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Software vulnerabilities pose significant security challenges and potential risks to society, necessitating extensive efforts in automated vulnerability detection. There are two popular lines of work to address automated vulnerability detection. On one hand, Static Application Security Testing (SAST) is usually utilized to scan source code for security vulnerabilities, especially in industries. On the other hand, deep learning (DL)-based methods, especially since the introduction of large language models (LLMs), have demonstrated their potential in software vulnerability detection. However, there is no comparative study between SAST tools and LLMs, aiming to determine their effectiveness in vulnerability detection, understand the pros and cons of both SAST and LLMs, and explore the potential combination of these two families of approaches. In this paper, we compared 15 diverse SAST tools with 12 popular or state-of-the-art open-source LLMs in detecting software vulnerabilities from repositories of three popular programming languages: Java, C, and Python. The experimental results showed that SAST tools obtain low vulnerability detection rates with relatively low false positives, while LLMs can detect up 90\% to 100\% of vulnerabilities but suffer from high false positives. By further ensembling the SAST tools and LLMs, the drawbacks of both SAST tools and LLMs can be mitigated to some extent. Our analysis sheds light on both the current progress and future directions for software vulnerability detection.
Abstract（参考訳）: ソフトウェア脆弱性は社会に重大なセキュリティ上の課題と潜在的なリスクをもたらし、自動脆弱性検出に多大な努力を必要とする。自動脆弱性検出には2つの人気がある。一方、静的アプリケーションセキュリティテスト(SAST)は通常、特に業界において、セキュリティ上の脆弱性のためにソースコードをスキャンするために使用される。一方,大規模言語モデル(LLM)の導入以来,ディープラーニング(DL)に基づく手法は,ソフトウェア脆弱性の検出においてその可能性を実証してきた。しかし, SAST ツールと LLM の比較研究は行われておらず, 脆弱性検出の有効性を判断し, SAST と LLM の両方の長所と短所を理解し, これら2つのアプローチの組み合わせの可能性を探究することを目的としている。本稿では,Java,C,Pythonの3つの人気プログラミング言語のリポジトリからソフトウェア脆弱性を検出するために,15種類のSASTツールと12のポピュラーあるいは最先端のオープンソースLLMを比較した。実験の結果,SASTツールは比較的低い偽陽性で低い脆弱性検出率を示し,LSMは90%から100倍の脆弱性を検出できるが,高い偽陽性に悩まされることがわかった。 SAST ツールと LLM をさらに統合することにより,SAST ツールと LLM の欠点をある程度軽減することができる。私たちの分析は、ソフトウェア脆弱性検出の現在の進歩と今後の方向性の両方に光を当てています。

関連論文リスト

Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
VulBinLLM: LLM-powered Vulnerability Detection for Stripped Binaries [4.1417640577742425]
Vul-BinLLMは、大規模言語モデルを用いたバイナリ脆弱性検出のためのフレームワークである。 Vul-BinLLMは、拡張コンテキストで逆コンパイルと脆弱性推論を微妙に最適化することで、従来のバイナリ分析を反映している。評価の結果,Vul-BinLLMはジュリエットデータセットの脆弱性の検出に極めて有効であることがわかった。
論文参考訳（メタデータ） (2025-05-28T06:17:56Z)
EXPLICATE: Enhancing Phishing Detection through Explainable AI and LLM-Powered Interpretability [44.2907457629342]
EXPLICATEは、三成分アーキテクチャによるフィッシング検出を強化するフレームワークである。既存のディープラーニング技術と同等ですが、説明性が向上しています。自動AIとフィッシング検出システムにおけるユーザ信頼の重大な隔たりに対処する。
論文参考訳（メタデータ） (2025-03-22T23:37:35Z)
CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection [2.5228276786940182]
本稿では,異なる手法の脆弱性検出能力を評価するためのベンチマークフレームワークであるCASTLEを紹介する。我々は,25個のCWEをカバーする250個のマイクロベンチマークプログラムを手作りしたデータセットを用いて,静的解析ツール13,LLM10,形式検証ツール2を評価した。
論文参考訳（メタデータ） (2025-03-12T14:30:05Z)
Large Language Models for In-File Vulnerability Localization Can Be "Lost in the End" [6.6389862916575275]
新しい開発手法では、研究者はLLMが大規模なファイルサイズの入力を効果的に分析できるかどうかを調べる必要がある。本稿では,GPTモデルを含む,最先端のチャットベースのLLMがファイル内脆弱性の検出に有効であることを示す。
論文参考訳（メタデータ） (2025-02-09T14:51:15Z)
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文参考訳（メタデータ） (2024-12-20T21:43:52Z)
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。 ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-11-25T04:17:24Z)
Boosting Cybersecurity Vulnerability Scanning based on LLM-supported Static Application Security Testing [5.644999288757871]
大規模言語モデル(LLM)は、強力なコード解析機能を示しているが、静的トレーニングデータとプライバシリスクは、その有効性を制限している。 LSASTは,LSLMをSASTスキャナと統合し,脆弱性検出を強化する手法である。静的な脆弱性分析のための新しいベンチマークを設定し、堅牢でプライバシを重視したソリューションを提供しました。
論文参考訳（メタデータ） (2024-09-24T04:42:43Z)
The Impact of SBOM Generators on Vulnerability Assessment in Python: A Comparison and a Novel Approach [56.4040698609393]
Software Bill of Materials (SBOM) は、ソフトウェア構成における透明性と妥当性を高めるツールとして推奨されている。現在のSBOM生成ツールは、コンポーネントや依存関係を識別する際の不正確さに悩まされることが多い。提案するPIP-sbomは,その欠点に対処する新しいピップインスパイアされたソリューションである。
論文参考訳（メタデータ） (2024-09-10T10:12:37Z)
Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文参考訳（メタデータ） (2024-07-29T09:55:34Z)
PenHeal: A Two-Stage LLM Framework for Automated Pentesting and Optimal Remediation [18.432274815853116]
PenHealは2段階のLSMベースのフレームワークで、自律的に脆弱性を特定してセキュリティを確保する。本稿では,LLMベースの2段階フレームワークであるPenHealについて紹介する。
論文参考訳（メタデータ） (2024-07-25T05:42:14Z)
Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study [1.03590082373586]
ソースコードの脆弱性発見を支援するために,大規模言語モデル(LLM)を提案する。目的は、複数の最先端のLCMをテストし、最も優れたプロンプト戦略を特定することである。 LLMは従来の静的解析ツールよりも多くの問題を特定でき、リコールやF1スコアの点で従来のツールよりも優れています。
論文参考訳（メタデータ） (2024-05-24T14:59:19Z)
ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages [45.16862486631841]
ツール学習は,現実のシナリオにおいて,基本的なアプローチあるいは大規模言語モデル(LLM)のデプロイとして広く認識されている。このギャップを埋めるために、ツール学習においてLLMに関連する安全性問題を調べるための包括的なフレームワークである*ToolSword*を紹介します。
論文参考訳（メタデータ） (2024-02-16T15:19:46Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
How Far Have We Gone in Vulnerability Detection Using Large Language Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-21T08:20:39Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文参考訳（メタデータ） (2023-09-25T17:08:02Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。