論文の概要: Adaptive Hierarchical Evaluation of LLMs and SAST tools for CWE Prediction in Python
- arxiv url: http://arxiv.org/abs/2601.01320v1
- Date: Sun, 04 Jan 2026 01:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.225035
- Title: Adaptive Hierarchical Evaluation of LLMs and SAST tools for CWE Prediction in Python
- Title(参考訳): Python における CWE 予測のための LLM および SAST ツールの適応的階層的評価
- Authors: Muntasir Adnan, Carlos C. N. Kuhn,
- Abstract要約: 脆弱性検出のための大規模言語モデルを評価する最初の関数レベルのPythonベンチマークを示す。
ALPHAはオーバージェネレーション、オーバースペクテーション、およびサイドエラーを区別する。
LLMはSASTよりかなり優れているが,SASTは検出時に高い精度を示す。
- 参考スコア(独自算出の注目度): 1.0026496861838445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have become integral to software development, yet they frequently generate vulnerable code. Existing code vulnerability detection benchmarks employ binary classification, lacking the CWE-level specificity required for actionable feedback in iterative correction systems. We present ALPHA (Adaptive Learning via Penalty in Hierarchical Assessment), the first function-level Python benchmark that evaluates both LLMs and SAST tools using hierarchically aware, CWE-specific penalties. ALPHA distinguishes between over-generalisation, over-specification, and lateral errors, reflecting practical differences in diagnostic utility. Evaluating seven LLMs and two SAST tools, we find LLMs substantially outperform SAST, though SAST demonstrates higher precision when detections occur. Critically, prediction consistency varies dramatically across models (8.26%-81.87% agreement), with significant implications for feedback-driven systems. We further outline a pathway for future work incorporating ALPHA penalties into supervised fine-tuning, which could provide principled hierarchy-aware vulnerability detection pending empirical validation.
- Abstract(参考訳): 大規模言語モデルはソフトウェア開発に不可欠なものになっているが、脆弱なコードを生成することが多い。
既存のコード脆弱性検出ベンチマークではバイナリ分類を採用しており、反復的な修正システムにおいて実行可能なフィードバックに必要なCWEレベルの特異性を欠いている。
ALPHA(Adaptive Learning via Penalty in Hierarchical Assessment)は,LLMとSASTツールの両方を階層的に認識したCWE固有のペナルティを用いて評価する,関数レベルのPythonベンチマークである。
ALPHAは、診断ユーティリティの実際的な違いを反映して、オーバージェネレーション、オーバースペクテーション、およびサイドエラーを区別する。
7つのLSMと2つのSASTツールを評価すると、LSMはSASTを大幅に上回るが、SASTは検出時に高い精度を示す。
臨界的に、予測整合性はモデル間で劇的に変化し(8.26%-81.87%の合意)、フィードバック駆動システムに重大な影響を及ぼす。
我々はさらに、ALPHAの罰則を教師付き微調整に取り入れた今後の研究の道筋を概説する。
関連論文リスト
- Calibratable Disambiguation Loss for Multi-Instance Partial-Label Learning [53.9713678229744]
MIPL(Multi-instance partial-label Learning)は、インスタンス空間とラベル空間の両方において、不正確な監督の課題に対処する弱い教師付きフレームワークである。
既存のMIPLアプローチは、しばしばキャリブレーションが悪く、信頼性を損なう。
分類精度と校正性能を同時に向上するプラグアンドプレイ校正型曖昧さ損失(CDL)を提案する。
論文 参考訳(メタデータ) (2025-12-19T16:58:31Z) - Evaluating Line-level Localization Ability of Learning-based Code Vulnerability Detection Models [9.543689542888599]
脆弱性検出のための説明可能性に基づく評価手法を提案する。
提案手法は検出アライメント(DA)として定義され,入力されたソースコード間の一致を定量化する。
このようなモデルの予測は、常に非負の線に偏っていることを示す。
論文 参考訳(メタデータ) (2025-10-13T09:34:40Z) - Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。
脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:48:22Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Can LLMs Classify CVEs? Investigating LLMs Capabilities in Computing CVSS Vectors [15.43868945929965]
新たに報告された脆弱性に対するCVSSスコアの生成におけるLarge Language Models(LLMs)の有効性を評価する。
以上の結果から,LCMはCVSS評価の自動化の可能性を実証する一方で,埋込法の方がより主観的成分の獲得に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-04-14T21:10:57Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - ANVIL: Anomaly-based Vulnerability Identification without Labelled Training Data [8.667471866135367]
教師付き学習ベースの脆弱性検知器は、ラベル付きトレーニングデータに制限があるため、しばしば不足する。
本稿では,脆弱性検出を異常検出として再設定する。
論文 参考訳(メタデータ) (2024-08-28T03:28:17Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。