論文の概要: LLMs in Code Vulnerability Analysis: A Proof of Concept
- arxiv url: http://arxiv.org/abs/2601.08691v1
- Date: Tue, 13 Jan 2026 16:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.279128
- Title: LLMs in Code Vulnerability Analysis: A Proof of Concept
- Title(参考訳): LLMs in Code Vulnerability Analysis: A Proof of Concept
- Authors: Shaznin Sultana, Sadia Afreen, Nasir U. Eisty,
- Abstract要約: 従来のソフトウェアセキュリティ分析手法は、現代人の規模や複雑さに合わせたペースを維持するのに苦労している。
本稿では,重要なソフトウェアセキュリティタスクを自動化するために,コード固有および汎用大規模言語モデルの導入について検討する。
- 参考スコア(独自算出の注目度): 0.3441021278275805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: Traditional software security analysis methods struggle to keep pace with the scale and complexity of modern codebases, requiring intelligent automation to detect, assess, and remediate vulnerabilities more efficiently and accurately. Objective: This paper explores the incorporation of code-specific and general-purpose Large Language Models (LLMs) to automate critical software security tasks, such as identifying vulnerabilities, predicting severity and access complexity, and generating fixes as a proof of concept. Method: We evaluate five pairs of recent LLMs, including both code-based and general-purpose open-source models, on two recognized C/C++ vulnerability datasets, namely Big-Vul and Vul-Repair. Additionally, we compare fine-tuning and prompt-based approaches. Results: The results show that fine-tuning uniformly outperforms both zero-shot and few-shot approaches across all tasks and models. Notably, code-specialized models excel in zero-shot and few-shot settings on complex tasks, while general-purpose models remain nearly as effective. Discrepancies among CodeBLEU, CodeBERTScore, BLEU, and ChrF highlight the inadequacy of current metrics for measuring repair quality. Conclusions: This study contributes to the software security community by investigating the potential of advanced LLMs to improve vulnerability analysis and remediation.
- Abstract(参考訳): コンテキスト: 従来のソフトウェアセキュリティ分析手法は、現代的なコードベースの規模と複雑さに追従するのに苦労し、脆弱性をより効率的に、正確に検出し、評価し、修正するためにインテリジェントな自動化を必要とします。
目的: 本論文では, 脆弱性の特定, 重大性の予測, アクセス複雑性の予測, 概念実証としての修正生成など, 重要なソフトウェアセキュリティタスクを自動化するための, コード固有および汎用大規模言語モデル (LLM) の導入について検討する。
Method: 我々は,C/C++の脆弱性データセットであるBig-VulとVul-Repairの2つについて,コードベースおよび汎用オープンソースモデルを含む最近のLLMの5つのペアを評価した。
さらに、微調整とプロンプトベースのアプローチを比較する。
その結果、微調整はすべてのタスクやモデルにおいてゼロショットと少数ショットの両方のアプローチを均一に上回っていることがわかった。
特に、コード特化モデルは、複雑なタスクにおいてゼロショットと少数ショットの設定で優れているが、汎用モデルは、ほぼ同様に有効である。
CodeBLEU、CodeBERTScore、BLEU、ChrFの相違点は、修復品質を測定するための現在の指標の不十分さを強調している。
結論: 本研究は、脆弱性分析と修復を改善するための高度なLCMの可能性を調べることによって、ソフトウェアセキュリティコミュニティに貢献する。
関連論文リスト
- Distilling Lightweight Language Models for C/C++ Vulnerabilities [7.45549460594508]
FineSecは、知識蒸留を通じて大規模言語モデルを活用する新しいフレームワークで、C/C++における効率的かつ正確な脆弱性識別を可能にする。
データ準備、トレーニング、評価、継続的学習を統合されたシングルタスクワークフローに統合することで、FineSecは合理化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-10-08T04:58:51Z) - Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。
脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:48:22Z) - White-Basilisk: A Hybrid Model for Code Vulnerability Detection [45.03594130075282]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。
このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。
Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文 参考訳(メタデータ) (2025-03-22T23:59:17Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。
CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。
本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。