論文の概要: Learning to Focus: Context Extraction for Efficient Code Vulnerability Detection with Language Models
- arxiv url: http://arxiv.org/abs/2505.17460v1
- Date: Fri, 23 May 2025 04:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.813286
- Title: Learning to Focus: Context Extraction for Efficient Code Vulnerability Detection with Language Models
- Title(参考訳): フォーカスする学習:言語モデルを用いた効率的なコード脆弱性検出のためのコンテキスト抽出
- Authors: Xinran Zheng, Xingzhi Qian, Huichi Zhou, Shuo Yang, Yiling He, Suman Jana, Lorenzo Cavallaro,
- Abstract要約: 言語モデル(LM)は脆弱性検出の約束を示すが、脆弱で不確実な脆弱性位置のため、長く現実世界のコードに苦労する。
本研究では、LMに基づく脆弱性検出を学習し、センシティブなコンテキストを選択するモデルに依存しないフレームワークであるFocusVulを提案する。
- 参考スコア(独自算出の注目度): 16.23854525619129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) show promise for vulnerability detection but struggle with long, real-world code due to sparse and uncertain vulnerability locations. These issues, exacerbated by token limits, often cause models to miss vulnerability-related signals, thereby impairing effective learning. A key intuition is to enhance LMs with concise, information-rich context. Commit-based annotations offer precise, CWE-agnostic supervision, but are unavailable during inference, as they depend on historical code changes. Moreover, their extreme sparsity, often covering only a few lines, makes it difficult for LMs to process directly. In this paper, we propose FocusVul, a model-agnostic framework that improves LM-based vulnerability detection by learning to select sensitive context. FocusVul learns commit-based annotation patterns through hierarchical semantic modeling and generalizes them to identify line-level vulnerability-relevant regions during inference. It then extracts LM-oriented context via both dependency and execution flows surrounding selected regions, yielding semantically rich inputs for effective vulnerability detection. Experiments on real-world benchmarks show that FocusVul consistently outperforms heuristic-based and full-function fine-tuning approaches, improving classification performance by 164.04% and reducing FLOPs by 19.12% on average.
- Abstract(参考訳): 言語モデル(LM)は脆弱性検出の約束を示すが、脆弱で不確実な脆弱性位置のため、長く現実世界のコードに苦労する。
これらの問題はトークン制限によって悪化し、しばしばモデルが脆弱性に関連する信号を見逃し、効果的な学習を損なう。
重要な直感は、簡潔で情報に富んだ文脈でLMを強化することである。
コミットベースのアノテーションは、正確なCWEに依存しない監視を提供するが、歴史的コードの変更に依存するため、推論中に利用できない。
さらに、その極端に広い範囲は、しばしば数行しかカバーしていないため、LMが直接処理することが困難である。
本論文では、LMに基づく脆弱性検出を学習により改善し、センシティブなコンテキストを選択するモデルに依存しないフレームワークであるFocusVulを提案する。
FocusVulは階層的なセマンティックモデリングを通じてコミットベースのアノテーションパターンを学び、推論中にラインレベルの脆弱性関連領域を特定するように一般化する。
次に、選択した領域を囲む依存性フローと実行フローの両方を通してLM指向のコンテキストを抽出し、効果的な脆弱性検出のためのセマンティックにリッチな入力を生成する。
実世界のベンチマーク実験では、FocusVulはヒューリスティックベースとフルファンクションの微調整アプローチを一貫して上回り、分類性能は164.04%向上し、FLOPは平均19.12%低下した。
関連論文リスト
- Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - If LLMs Would Just Look: Simple Line-by-line Checking Improves Vulnerability Localization [33.42741297088634]
手動のコード監査やルールベースのツールなど、従来の脆弱性のローカライゼーションの方法は、多くの場合、時間をかけてスコープに制限される。
本稿では,大規模言語モデルに固有の自己認識機構を活用する新しいフレームワークであるLOVAを紹介する。
LOVA は既存の LLM ベースのアプローチよりも大幅に優れており,F1 スコアの最大 5.3 倍の改善が達成されている。
論文 参考訳(メタデータ) (2024-10-20T05:02:18Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。