論文の概要: From LLMs to Agents: A Comparative Evaluation of LLMs and LLM-based Agents in Security Patch Detection
- arxiv url: http://arxiv.org/abs/2511.08060v1
- Date: Wed, 12 Nov 2025 01:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.61951
- Title: From LLMs to Agents: A Comparative Evaluation of LLMs and LLM-based Agents in Security Patch Detection
- Title(参考訳): LLMからエージェントへ:セキュリティパッチ検出におけるLLMとLLMベースのエージェントの比較評価
- Authors: Junxiao Han, Zheng Yu, Lingfeng Bao, Jiakun Liu, Yao Wan, Jianwei Yin, Shuiguang Deng, Song Han,
- Abstract要約: 大規模言語モデル(LLM)とLLMベースのエージェントは、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示した。
セキュリティパッチ検出のための LLM および LLM ベースのエージェントの性能を総合的に評価する。
以上の結果から,Data-Aug LLMは最高の総合成績を示し,ReAct Agentは最も低い偽陽性率(FPR)を示した。
- 参考スコア(独自算出の注目度): 42.089851895083804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of open-source software (OSS) has accelerated software innovation but also increased security risks due to the rapid propagation of vulnerabilities and silent patch releases. In recent years, large language models (LLMs) and LLM-based agents have demonstrated remarkable capabilities in various software engineering (SE) tasks, enabling them to effectively address software security challenges such as vulnerability detection. However, systematic evaluation of the capabilities of LLMs and LLM-based agents in security patch detection remains limited. To bridge this gap, we conduct a comprehensive evaluation of the performance of LLMs and LLM-based agents for security patch detection. Specifically, we investigate three methods: Plain LLM (a single LLM with a system prompt), Data-Aug LLM (data augmentation based on the Plain LLM), and the ReAct Agent (leveraging the thought-action-observation mechanism). We also evaluate the performance of both commercial and open-source LLMs under these methods and compare these results with those of existing baselines. Furthermore, we analyze the detection performance of these methods across various vulnerability types, and examine the impact of different prompting strategies and context window sizes on the results. Our findings reveal that the Data-Aug LLM achieves the best overall performance, whereas the ReAct Agent demonstrates the lowest false positive rate (FPR). Although baseline methods exhibit strong accuracy, their false positive rates are significantly higher. In contrast, our evaluated methods achieve comparable accuracy while substantially reducing the FPR. These findings provide valuable insights into the practical applications of LLMs and LLM-based agents in security patch detection, highlighting their advantage in maintaining robust performance while minimizing false positive rates.
- Abstract(参考訳): オープンソースソフトウェア(OSS)の普及はソフトウェア革新を加速させたが、脆弱性の急速な伝播と静かなパッチリリースによるセキュリティリスクも増大した。
近年,大規模言語モデル (LLM) と LLM ベースのエージェントは,様々なソフトウェア工学 (SE) タスクにおいて顕著な機能を示し,脆弱性検出などのソフトウェアセキュリティ問題に効果的に対処できるようになっている。
しかし,セキュリティパッチ検出におけるLSMとLSMをベースとしたエージェントの能力の体系的評価は依然として限られている。
このギャップを埋めるため、セキュリティパッチ検出のためのLLMとLLMベースのエージェントの性能を総合的に評価する。
具体的には、Plain LLM(システムプロンプト付き単一LLM)、Data-Aug LLM(Plain LLMに基づくデータ拡張)、ReAct Agent(思考・行動・観測機構の評価)の3つの手法について検討する。
また,これらの手法による商用LLMとオープンソースLLMの性能評価を行い,既存のベースラインと比較した。
さらに,これらの手法の検出性能を種々の脆弱性タイプで解析し,異なるプロンプト戦略とコンテキストウィンドウサイズが結果に与える影響について検討する。
以上の結果から,Data-Aug LLMは最高の総合成績を示し,ReAct Agentは最も低い偽陽性率(FPR)を示した。
ベースライン法は高い精度を示すが, 偽陽性率は有意に高い。
対照的に、評価手法はFPRを大幅に削減しつつ、同等の精度を達成する。
これらの発見は、セキュリティパッチ検出におけるLLMおよびLLMベースのエージェントの実用的応用に関する貴重な知見を提供し、偽陽性率を最小限に抑えつつ、堅牢なパフォーマンスを維持する上での優位性を浮き彫りにした。
関連論文リスト
- On the Effectiveness of Instruction-Tuning Local LLMs for Identifying Software Vulnerabilities [0.7136933021609079]
大規模言語モデル(LLM)は、ソフトウェア脆弱性分析の自動化において大きな可能性を秘めている。
脆弱性分析を自動化するためにLLMを使用する現在のアプローチは、主にオンラインAPIベースのLLMサービスに頼っている。
本稿では,この問題をソフトウェア脆弱性同定(SVI)として再検討することによって,これらの制約に対処する。
実世界の脆弱性管理においてLLMをより効果的でセキュアで実践的なアプローチを示す。
論文 参考訳(メタデータ) (2025-12-23T05:30:53Z) - Evaluating LLMs for One-Shot Patching of Real and Artificial Vulnerabilities [2.5190317156807924]
いくつかの著名な大規模言語モデル(LLM)のパッチの有効性と相補性を実証的に評価する。
以上の結果から,LLMは人工的な脆弱性よりも,実際の脆弱性を効果的にパッチすることが明らかとなった。
重なり合い(複数のLLMが同一の脆弱性にパッチを当てている)と相補性の観点から,LLM間の大きなばらつきを明らかにした。
論文 参考訳(メタデータ) (2025-11-28T18:03:47Z) - Towards Effective Complementary Security Analysis using Large Language Models [3.203446435054805]
セキュリティ分析における重要な課題は、静的アプリケーションセキュリティテスト(SAST)ツールによって生成される潜在的なセキュリティの弱点を手動で評価することである。
本研究では,SAST 結果の評価を改善するために,Large Language Models (LLMs) を提案する。
論文 参考訳(メタデータ) (2025-06-20T10:46:35Z) - LLM Embedding-based Attribution (LEA): Quantifying Source Contributions to Generative Model's Response for Vulnerability Analysis [1.3543506826034255]
大規模言語モデル(LLM)はサイバーセキュリティの脅威分析にますます利用されているが、セキュリティに敏感な環境への展開は信頼と安全性の懸念を引き起こす。
本研究は、脆弱性攻撃分析のために生成された応答を分析するために、埋め込み属性(LEA)を提案する。
以上の結果から,LEAは大規模モデルにおいて95%以上の精度で,非検索,汎用検索,有効検索シナリオの明確な区別を検出できることを示した。
論文 参考訳(メタデータ) (2025-06-12T21:20:10Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Multitask-based Evaluation of Open-Source LLM on Software Vulnerability [2.7692028382314815]
本稿では,公開データセットを用いて対話型大規模言語モデル(LLM)を定量的に評価するためのパイプラインを提案する。
我々は,4つの共通ソフトウェア脆弱性タスクをカバーするBig-Vulを用いて,LLMの広範な技術的評価を行う。
既存の最先端のアプローチと事前訓練された言語モデル(LM)は、ソフトウェア脆弱性検出において、LLMよりも一般的に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-02T15:52:05Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。