論文の概要: LLbezpeky: Leveraging Large Language Models for Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2401.01269v2
- Date: Tue, 13 Feb 2024 17:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:40:44.555326
- Title: LLbezpeky: Leveraging Large Language Models for Vulnerability Detection
- Title(参考訳): llbezpeky: 脆弱性検出に大規模な言語モデルを活用する
- Authors: Noble Saji Mathews, Yelizaveta Brus, Yousra Aafer, Meiyappan Nagappan,
Shane McIntosh
- Abstract要約: 大規模言語モデル(LLM)は、人やプログラミング言語におけるセムナティクスを理解する大きな可能性を示している。
私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
- 参考スコア(独自算出の注目度): 10.330063887545398
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the continued research and progress in building secure systems,
Android applications continue to be ridden with vulnerabilities, necessitating
effective detection methods. Current strategies involving static and dynamic
analysis tools come with limitations like overwhelming number of false
positives and limited scope of analysis which make either difficult to adopt.
Over the past years, machine learning based approaches have been extensively
explored for vulnerability detection, but its real-world applicability is
constrained by data requirements and feature engineering challenges. Large
Language Models (LLMs), with their vast parameters, have shown tremendous
potential in understanding semnatics in human as well as programming languages.
We dive into the efficacy of LLMs for detecting vulnerabilities in the context
of Android security. We focus on building an AI-driven workflow to assist
developers in identifying and rectifying vulnerabilities. Our experiments show
that LLMs outperform our expectations in finding issues within applications
correctly flagging insecure apps in 91.67% of cases in the Ghera benchmark. We
use inferences from our experiments towards building a robust and actionable
vulnerability detection system and demonstrate its effectiveness. Our
experiments also shed light on how different various simple configurations can
affect the True Positive (TP) and False Positive (FP) rates.
- Abstract(参考訳): セキュアなシステムの構築に関する研究と進展は続いているが、androidアプリケーションは依然として脆弱性を抱えており、効果的な検出方法を必要としている。
静的および動的分析ツールを含む現在の戦略には、圧倒的な数の偽陽性や、採用が難しい分析範囲の限定といった制限がある。
過去数年間、脆弱性検出のための機械学習ベースのアプローチが広く研究されてきたが、実際の適用性はデータ要件と機能エンジニアリングの課題によって制限されている。
LLM(Large Language Models)は、その膨大なパラメータを持ち、人間やプログラミング言語のセマンティックスを理解する大きな可能性を示している。
Androidセキュリティのコンテキストにおける脆弱性検出のためのLLMの有効性について検討する。
私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
実験の結果,LLMはGheraベンチマークの91.67%のケースで,安全でないアプリを正しくフラグ付けするアプリケーション内での問題を見つける上で,私たちの期待を上回る結果となった。
実験から得た推論を用いて,堅牢で実行可能な脆弱性検出システムの構築を行い,その効果を実証する。
私たちの実験では、さまざまな単純な構成がTrue Positive(TP)とFalse Positive(FP)のレートにどのように影響するかも明らかにしました。
関連論文リスト
- Detectors for Safe and Reliable LLMs: Implementations, Uses, and
Limitations [75.62309487375126]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - On the Safety Concerns of Deploying LLMs/VLMs in Robotics: Highlighting
the Risks and Vulnerabilities [50.31806287390321]
ロボットの動作を操作または誤操作することは容易であり、安全上の危険をもたらす。
我々のデータは、即時攻撃で21.2%、知覚攻撃で30.2%の平均的なパフォーマンス劣化を示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Your Instructions Are Not Always Helpful: Assessing the Efficacy of
Instruction Fine-tuning for Software Vulnerability Detection [9.763041664345105]
ソフトウェアは、固有の脆弱性のために潜在的なサイバーセキュリティリスクを引き起こす。
ディープラーニングは、広範な機能エンジニアリングを必要とせずに、優れたパフォーマンスを実現することができるため、このタスクの効果的なツールとして期待されている。
最近の研究は、多様なタスクにおけるディープラーニングの有効性を強調している。
本稿では,モデル,特に最近の言語モデルが,学習データに使用されるプログラミング言語を超えて一般化する能力について検討する。
論文 参考訳(メタデータ) (2024-01-15T04:45:27Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - Understanding the Effectiveness of Large Language Models in Detecting
Security Vulnerabilities [13.591113697508117]
LLM(Large Language Models)は、コード関連のタスクにおいて顕著なパフォーマンスを示す。
LLMは、既存の静的解析やディープラーニングに基づく脆弱性検出ツールよりもよく機能することを示す。
LLMは、しばしば、コード内の脆弱なデータフローを特定する、信頼できる説明を提供する。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - Large Language Model-Powered Smart Contract Vulnerability Detection: New
Perspectives [8.524720028421447]
本稿では, GPT-4 のような大規模言語モデル (LLM) を利用する機会, 課題, 潜在的な解決策を体系的に分析する。
高いランダム性でより多くの答えを生成することは、正しい答えを生み出す可能性を大幅に押し上げるが、必然的に偽陽性の数が増加する。
本稿では,GPTLens と呼ばれる,従来の一段階検出を2つの相乗的段階に分割し,生成と識別を行う逆方向のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T12:37:23Z) - AdvCat: Domain-Agnostic Robustness Assessment for Cybersecurity-Critical
Applications with Categorical Inputs [29.907921481157974]
敵攻撃に対する堅牢性は、機械学習のデプロイメントにおける重要な信頼の1つだ。
本稿では,ML駆動型サイバーセキュリティクリティカルな幅広いアプリケーションを対象とした,最適かつ高効率な対向ロバスト性評価プロトコルを提案する。
本研究では,ドメインに依存しないロバスト性評価手法を用いて,偽ニュースの検出と侵入検知問題に関する実験を行った。
論文 参考訳(メタデータ) (2022-12-13T18:12:02Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2021-01-28T16:38:26Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。