論文の概要: LLbezpeky: Leveraging Large Language Models for Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2401.01269v2
- Date: Tue, 13 Feb 2024 17:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:40:44.555326
- Title: LLbezpeky: Leveraging Large Language Models for Vulnerability Detection
- Title(参考訳): llbezpeky: 脆弱性検出に大規模な言語モデルを活用する
- Authors: Noble Saji Mathews, Yelizaveta Brus, Yousra Aafer, Meiyappan Nagappan,
Shane McIntosh
- Abstract要約: 大規模言語モデル(LLM)は、人やプログラミング言語におけるセムナティクスを理解する大きな可能性を示している。
私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
- 参考スコア(独自算出の注目度): 10.330063887545398
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the continued research and progress in building secure systems,
Android applications continue to be ridden with vulnerabilities, necessitating
effective detection methods. Current strategies involving static and dynamic
analysis tools come with limitations like overwhelming number of false
positives and limited scope of analysis which make either difficult to adopt.
Over the past years, machine learning based approaches have been extensively
explored for vulnerability detection, but its real-world applicability is
constrained by data requirements and feature engineering challenges. Large
Language Models (LLMs), with their vast parameters, have shown tremendous
potential in understanding semnatics in human as well as programming languages.
We dive into the efficacy of LLMs for detecting vulnerabilities in the context
of Android security. We focus on building an AI-driven workflow to assist
developers in identifying and rectifying vulnerabilities. Our experiments show
that LLMs outperform our expectations in finding issues within applications
correctly flagging insecure apps in 91.67% of cases in the Ghera benchmark. We
use inferences from our experiments towards building a robust and actionable
vulnerability detection system and demonstrate its effectiveness. Our
experiments also shed light on how different various simple configurations can
affect the True Positive (TP) and False Positive (FP) rates.
- Abstract(参考訳): セキュアなシステムの構築に関する研究と進展は続いているが、androidアプリケーションは依然として脆弱性を抱えており、効果的な検出方法を必要としている。
静的および動的分析ツールを含む現在の戦略には、圧倒的な数の偽陽性や、採用が難しい分析範囲の限定といった制限がある。
過去数年間、脆弱性検出のための機械学習ベースのアプローチが広く研究されてきたが、実際の適用性はデータ要件と機能エンジニアリングの課題によって制限されている。
LLM(Large Language Models)は、その膨大なパラメータを持ち、人間やプログラミング言語のセマンティックスを理解する大きな可能性を示している。
Androidセキュリティのコンテキストにおける脆弱性検出のためのLLMの有効性について検討する。
私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
実験の結果,LLMはGheraベンチマークの91.67%のケースで,安全でないアプリを正しくフラグ付けするアプリケーション内での問題を見つける上で,私たちの期待を上回る結果となった。
実験から得た推論を用いて,堅牢で実行可能な脆弱性検出システムの構築を行い,その効果を実証する。
私たちの実験では、さまざまな単純な構成がTrue Positive(TP)とFalse Positive(FP)のレートにどのように影響するかも明らかにしました。
関連論文リスト
- In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - RealVul: Can We Detect Vulnerabilities in Web Applications with LLM? [4.467475584754677]
本稿では,PHP 脆弱性検出用に設計された最初の LLM ベースのフレームワークである RealVul を紹介する。
コードの合理化と不要なセマンティック情報を排除しながら、潜在的な脆弱性トリガを分離できます。
また、データ合成法の改善により、PHPの脆弱性サンプルが不足している問題にも対処する。
論文 参考訳(メタデータ) (2024-10-10T03:16:34Z) - Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2021-01-28T16:38:26Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。