論文の概要: Assessing the Software Security Comprehension of Large Language Models
- arxiv url: http://arxiv.org/abs/2512.21238v1
- Date: Wed, 24 Dec 2025 15:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.816615
- Title: Assessing the Software Security Comprehension of Large Language Models
- Title(参考訳): 大規模言語モデルのソフトウェアセキュリティ理解を評価する
- Authors: Mohammed Latif Siddiq, Natalie Sekerak, Antonio Karam, Maria Leal, Arvin Islam-Gomes, Joanna C. S. Santos,
- Abstract要約: 本研究は,5大言語モデル(LLM)のセキュリティ理解を体系的に評価する。
記憶、理解、適用、分析、評価、創造の6つの認知次元を評価します。
モデルが信頼性のある性能を継続的に維持する上で,最高の認知レベルを識別するソフトウェアセキュリティ知識境界を導入する。
- 参考スコア(独自算出の注目度): 4.1613645562134085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in software development, but their level of software security expertise remains unclear. This work systematically evaluates the security comprehension of five leading LLMs: GPT-4o-Mini, GPT-5-Mini, Gemini-2.5-Flash, Llama-3.1, and Qwen-2.5, using Blooms Taxonomy as a framework. We assess six cognitive dimensions: remembering, understanding, applying, analyzing, evaluating, and creating. Our methodology integrates diverse datasets, including curated multiple-choice questions, vulnerable code snippets (SALLM), course assessments from an Introduction to Software Security course, real-world case studies (XBOW), and project-based creation tasks from a Secure Software Engineering course. Results show that while LLMs perform well on lower-level cognitive tasks such as recalling facts and identifying known vulnerabilities, their performance degrades significantly on higher-order tasks that require reasoning, architectural evaluation, and secure system creation. Beyond reporting aggregate accuracy, we introduce a software security knowledge boundary that identifies the highest cognitive level at which a model consistently maintains reliable performance. In addition, we identify 51 recurring misconception patterns exhibited by LLMs across Blooms levels.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、ソフトウェアセキュリティに関する専門知識のレベルはまだ不明である。
この研究は、GPT-4o-Mini、GPT-5-Mini、Gemini-2.5-Flash、Llama-3.1、Qwen-2.5の5つの主要なLCMのセキュリティ理解をブルームズ分類学をフレームワークとして体系的に評価する。
記憶、理解、適用、分析、評価、創造の6つの認知次元を評価します。
提案手法は,複数質問のキュレート,脆弱性のあるコードスニペット(SALLM),ソフトウェアセキュリティ入門コースからのコースアセスメント,実世界ケーススタディ(XBOW),セキュアソフトウェアエンジニアリングコースからのプロジェクトベース作成タスクなど,さまざまなデータセットを統合している。
その結果,LLMは事実のリコールや既知の脆弱性の特定など,低レベルの認知タスクでは良好に機能するが,その性能は推論やアーキテクチャ評価,セキュアなシステム生成を必要とする高次タスクでは著しく低下することがわかった。
集計精度の報告以外にも、モデルが信頼性のあるパフォーマンスを一貫して維持する最も高い認知レベルを特定するソフトウェアセキュリティ知識境界を導入します。
さらに,LLMがブルームのレベルにわたって提示する51の誤認識パターンを同定した。
関連論文リスト
- A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Leveraging Large Language Models for Command Injection Vulnerability Analysis in Python: An Empirical Study on Popular Open-Source Projects [5.997074223480274]
コマンドインジェクションの脆弱性は、Pythonのような動的言語において重大なセキュリティ上の脅威である。
テストなどのコード関連タスクにおけるLLM(Large Language Models)の有効性が証明されたことから、研究者たちは脆弱性分析の可能性を探った。
本研究は,GPT-4のような大規模言語モデル(LLM)の潜在的な可能性を,脆弱性検出のための自動テストの代替手法として評価する。
論文 参考訳(メタデータ) (2025-05-21T04:14:35Z) - The Digital Cybersecurity Expert: How Far Have We Come? [49.89857422097055]
我々は,サイバーセキュリティの専門家が期待する345の知識ポイントに基づいた,きめ細かいサイバーセキュリティ評価フレームワークであるCSEBenchmarkを開発した。
CSEBenchmarkで12のポピュラーな大言語モデル(LLM)を評価し、最高のパフォーマンスモデルでさえ全体の精度は85.42%に過ぎなかった。
各LSMにおける特定の知識ギャップを特定し,対処することにより,事前の誤り予測の修正において最大84%の改善が達成される。
論文 参考訳(メタデータ) (2025-04-16T05:36:28Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。
既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。
大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。