論文の概要: Evaluating Line-level Localization Ability of Learning-based Code Vulnerability Detection Models
- arxiv url: http://arxiv.org/abs/2510.11202v1
- Date: Mon, 13 Oct 2025 09:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.300129
- Title: Evaluating Line-level Localization Ability of Learning-based Code Vulnerability Detection Models
- Title(参考訳): 学習型コードの脆弱性検出モデルにおける線形レベルの局所化能力の評価
- Authors: Marco Pintore, Giorgio Piras, Angelo Sotgiu, Maura Pintor, Battista Biggio,
- Abstract要約: 脆弱性検出のための説明可能性に基づく評価手法を提案する。
提案手法は検出アライメント(DA)として定義され,入力されたソースコード間の一致を定量化する。
このようなモデルの予測は、常に非負の線に偏っていることを示す。
- 参考スコア(独自算出の注目度): 9.543689542888599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To address the extremely concerning problem of software vulnerability, system security is often entrusted to Machine Learning (ML) algorithms. Despite their now established detection capabilities, such models are limited by design to flagging the entire input source code function as vulnerable, rather than precisely localizing the concerned code lines. However, the detection granularity is crucial to support human operators during software development, ensuring that such predictions reflect the true code semantics to help debug, evaluate, and fix the detected vulnerabilities. To address this issue, recent work made progress toward improving the detector's localization ability, thus narrowing down the vulnerability detection "window" and providing more fine-grained predictions. Such approaches, however, implicitly disregard the presence of spurious correlations and biases in the data, which often predominantly influence the performance of ML algorithms. In this work, we investigate how detectors comply with this requirement by proposing an explainability-based evaluation procedure. Our approach, defined as Detection Alignment (DA), quantifies the agreement between the input source code lines that most influence the prediction and the actual localization of the vulnerability as per the ground truth. Through DA, which is model-agnostic and adaptable to different detection tasks, not limited to our use case, we analyze multiple learning-based vulnerability detectors and datasets. As a result, we show how the predictions of such models are consistently biased by non-vulnerable lines, ultimately highlighting the high impact of biases and spurious correlations. The code is available at https://github.com/pralab/vuln-localization-eval.
- Abstract(参考訳): ソフトウェア脆弱性の極めて深刻な問題に対処するため、システムセキュリティは機械学習(ML)アルゴリズムに委任されることが多い。
現在確立されている検出機能にもかかわらず、そのようなモデルは設計によって、関連するコード行を正確にローカライズするのではなく、入力ソースコード全体の機能を脆弱性としてフラグ付けするように制限されている。
しかしながら、検出の粒度は、ソフトウェア開発において人間のオペレータをサポートするために重要であり、そのような予測が真のコードセマンティクスを反映して検出された脆弱性のデバッグ、評価、修正を支援する。
この問題に対処するため、最近の研究は検出器のローカライゼーション能力の向上に向けて前進し、脆弱性検出の"ウィンドウ"を狭め、よりきめ細かな予測を提供した。
しかし、このようなアプローチは、しばしばMLアルゴリズムの性能に大きく影響する、データ内の急激な相関やバイアスの存在を暗黙的に無視する。
本研究では,検知器がこの要件にどのように準拠するかを,説明可能性に基づく評価手法を提案する。
提案手法は,検出アライメント (DA) として定義され,入力ソースコード行間の一致を定量化する。
DAはモデルに依存しず、異なる検出タスクに適応可能であり、私たちのユースケースに限らず、複数の学習ベースの脆弱性検出とデータセットを分析します。
その結果、そのようなモデルの予測は、常に非負の線によってバイアスを受けており、最終的に偏りの強い影響と刺激的な相関が浮き彫りになることを示す。
コードはhttps://github.com/pralab/vuln-localization-eval.comで公開されている。
関連論文リスト
- VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Are We Learning the Right Features? A Framework for Evaluating DL-Based Software Vulnerability Detection Solutions [3.204048014949849]
本論文は,本領域における研究を適切に評価するための基盤を提供することを目的とする。
脆弱性に寄与するコードの構文的および意味的特徴に対する脆弱性データセットを分析する。
この表現は、コード内の脆弱性と突発的な機能の両方の存在を検出するのに使われます。
論文 参考訳(メタデータ) (2025-01-23T00:32:15Z) - Beyond Fidelity: Explaining Vulnerability Localization of Learning-based
Detectors [10.316819421902363]
近年,ディープラーニング(DL)モデルに基づく脆弱性検出装置の有効性が証明されている。
これらの検出器の意思決定プロセスを取り巻く不透明さは、セキュリティアナリストの理解を困難にしている。
グラフおよびシーケンス表現に基づく脆弱性検出のための10種類の説明手法の性能評価を行った。
論文 参考訳(メタデータ) (2024-01-05T07:37:35Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。