論文の概要: Real-VulLLM: An LLM Based Assessment Framework in the Wild
- arxiv url: http://arxiv.org/abs/2510.04056v1
- Date: Sun, 05 Oct 2025 06:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.425624
- Title: Real-VulLLM: An LLM Based Assessment Framework in the Wild
- Title(参考訳): Real-VulLLM: 野生におけるLLMベースのアセスメントフレームワーク
- Authors: Rijha Safdar, Danyail Mateen, Syed Taha Ali, Wajahat Hussain,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学において非常に進歩している。
野生のシナリオにおける脆弱性検出の能力とそれに対応する推論については、いまだ検討されていない。
当社のコントリビューションは,脆弱性検出のためのインシデント設計と,野生におけるそれに対応する推論である。
- 参考スコア(独自算出の注目度): 0.7408058999454915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence (AI) and more specifically Large Language Models (LLMs) have demonstrated exceptional progress in multiple areas including software engineering, however, their capability for vulnerability detection in the wild scenario and its corresponding reasoning remains underexplored. Prompting pre-trained LLMs in an effective way offers a computationally effective and scalable solution. Our contributions are (i)varied prompt designs for vulnerability detection and its corresponding reasoning in the wild. (ii)a real-world vector data store constructed from the National Vulnerability Database, that will provide real time context to vulnerability detection framework, and (iii)a scoring measure for combined measurement of accuracy and reasoning quality. Our contribution aims to examine whether LLMs are ready for wild deployment, thus enabling the reliable use of LLMs stronger for the development of secure software's.
- Abstract(参考訳): 人工知能(AI)や、より具体的にはLarge Language Models(LLM)は、ソフトウェア工学を含む複数の分野で例外的な進歩を見せている。
事前学習されたLLMを効果的にプロンプティングすることは、計算的に効果的でスケーラブルなソリューションを提供する。
コントリビューション
(i)脆弱性検出のプロンプト設計と野生におけるそれに対応する理由
(ii)National Vulnerability Databaseから構築された実世界のベクトルデータストアで、脆弱性検出フレームワークにリアルタイムコンテキストを提供する。
三 正確性及び推論品質の総合的な測定のための評価指標。
我々の貢献は、LLMがワイルドデプロイメントの準備が整っているかどうかを調べることを目的としており、セキュアなソフトウェアの開発において、LLMの信頼性を高めることを目的としている。
関連論文リスト
- A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - LLMpatronous: Harnessing the Power of LLMs For Vulnerability Detection [0.0]
脆弱性検出のための大規模言語モデル(LLM)には、ユニークな課題がある。
脆弱性検出に機械学習モデルを使用した以前の試みは、効果がないことが証明されている。
我々は、これらの制限を緩和することに焦点を当てた、堅牢なAI駆動アプローチを提案する。
論文 参考訳(メタデータ) (2025-04-25T15:30:40Z) - VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。
本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。
私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-09-16T22:00:20Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Towards Explainable Vulnerability Detection with Large Language Models [14.243344783348398]
ソフトウェア脆弱性は、ソフトウェアシステムのセキュリティと整合性に重大なリスクをもたらす。
大規模言語モデル(LLMs)の出現は、その高度な生成能力による変換ポテンシャルを導入している。
本稿では,脆弱性検出と説明という2つのタスクにLLMを専門化する自動フレームワークであるLLMVulExpを提案する。
論文 参考訳(メタデータ) (2024-06-14T04:01:25Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。