論文の概要: SIExVulTS: Sensitive Information Exposure Vulnerability Detection System using Transformer Models and Static Analysis
- arxiv url: http://arxiv.org/abs/2508.19472v1
- Date: Tue, 26 Aug 2025 23:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.444319
- Title: SIExVulTS: Sensitive Information Exposure Vulnerability Detection System using Transformer Models and Static Analysis
- Title(参考訳): SIExVulTS: 変圧器モデルと静的解析を用いた高感度情報露出脆弱性検出システム
- Authors: Kyler Katz, Sara Moshtari, Ibrahim Mujhid, Mehdi Mirakhorli, Derek Garcia,
- Abstract要約: SIExVulTSは、トランスフォーマーベースのモデルと静的解析を統合する、新たな脆弱性検出システムである。
実世界のCVE、CWE-200のベンチマークセット、31のオープンソースプロジェクトからのラベル付きフローを含む3つのキュレートされたデータセットを用いてSIExVulTSを評価した。
- 参考スコア(独自算出の注目度): 2.1258866329463832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sensitive Information Exposure (SIEx) vulnerabilities (CWE-200) remain a persistent and under-addressed threat across software systems, often leading to serious security breaches. Existing detection tools rarely target the diverse subcategories of CWE-200 or provide context-aware analysis of code-level data flows. Aims: This paper aims to present SIExVulTS, a novel vulnerability detection system that integrates transformer-based models with static analysis to identify and verify sensitive information exposure in Java applications. Method: SIExVulTS employs a three-stage architecture: (1) an Attack Surface Detection Engine that uses sentence embeddings to identify sensitive variables, strings, comments, and sinks; (2) an Exposure Analysis Engine that instantiates CodeQL queries aligned with the CWE-200 hierarchy; and (3) a Flow Verification Engine that leverages GraphCodeBERT to semantically validate source-to-sink flows. We evaluate SIExVulTS using three curated datasets, including real-world CVEs, a benchmark set of synthetic CWE-200 examples, and labeled flows from 31 open-source projects. Results: The Attack Surface Detection Engine achieved an average F1 score greater than 93\%, the Exposure Analysis Engine achieved an F1 score of 85.71\%, and the Flow Verification Engine increased precision from 22.61\% to 87.23\%. Moreover, SIExVulTS successfully uncovered six previously unknown CVEs in major Apache projects. Conclusions: The results demonstrate that SIExVulTS is effective and practical for improving software security against sensitive data exposure, addressing limitations of existing tools in detecting and verifying CWE-200 vulnerabilities.
- Abstract(参考訳): SIEx(Sensitive Information Exposure)脆弱性(CWE-200)は、ソフトウェアシステム間の永続的かつ過度な脅威であり、重大なセキュリティ侵害につながることが多い。
既存の検出ツールは、CWE-200の多様なサブカテゴリをターゲットにしたり、コードレベルのデータフローのコンテキスト認識分析を提供することは滅多にない。
Aims: 本論文は,トランスフォーマーモデルと静的解析を統合して,Javaアプリケーションの機密情報露出を特定し検証する,新たな脆弱性検出システムであるSIExVulTSを提案することを目的としている。
方法:SIExVulTSは,(1)センシティブな変数,文字列,コメント,シンクを識別するために文の埋め込みを使用するアタックサーフェス検出エンジン,(2)CWE-200階層に沿ったCodeQLクエリをインスタンス化するエクスポージャー分析エンジン,(3)GraphCodeBERTを利用してソースとシンクフローを意味的に検証するフロー検証エンジン,という3段階のアーキテクチャを採用している。
実世界のCVE、CWE-200のベンチマークセット、31のオープンソースプロジェクトからのラベル付きフローを含む3つのキュレートされたデータセットを用いてSIExVulTSを評価した。
結果:アタックサーフェス検出エンジンは平均F1スコアを93.%以上、露出分析エンジンはF1スコアを85.71.%、フロー検証エンジンは22.61.%から87.23.%に向上した。
さらに、SIExVulTSは主要なApacheプロジェクトで6つの既知のCVEを発見した。
結論: その結果、SIExVulTSは、機密性の高いデータ露出に対するソフトウェアセキュリティの改善、CWE-200脆弱性の検出と検証における既存のツールの制限に対処する上で、効果的で実用的であることが示された。
関連論文リスト
- Cross-Dataset Semantic Segmentation Performance Analysis: Unifying NIST Point Cloud City Datasets for 3D Deep Learning [49.1574468325115]
本研究では、公共安全アプリケーションに関連する異種ラベル付きポイントクラウドデータセット間のセマンティックセマンティックセマンティクス性能を解析する。
主な課題は、ラベル付きデータ不足、データセット間でクラスラベルを統一することの難しさ、標準化の必要性である。
論文 参考訳(メタデータ) (2025-08-01T17:59:02Z) - VLAI: A RoBERTa-Based Model for Automated Vulnerability Severity Classification [49.1574468325115]
RoBERTa上に構築されたVLAIは、60万以上の現実世界の脆弱性に微調整されている。
モデルとデータセットはオープンソースで、Vulnerability-Lookupサービスに統合されている。
論文 参考訳(メタデータ) (2025-07-04T14:28:14Z) - SAVANT: Vulnerability Detection in Application Dependencies through Semantic-Guided Reachability Analysis [6.989158266868967]
Java開発におけるオープンソースのサードパーティライブラリの依存関係の統合は、重大なセキュリティリスクをもたらす。
Savantは、セマンティックプリプロセッシングとLLMによるコンテキスト分析を組み合わせて、正確な脆弱性検出を行う。
Savantは83.8%の精度、73.8%のリコール、69.0%の精度、78.5%のF1スコアを達成し、最先端のSCAツールを上回っている。
論文 参考訳(メタデータ) (2025-06-21T19:48:13Z) - SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。
このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文 参考訳(メタデータ) (2025-05-26T11:06:03Z) - EXPLICATE: Enhancing Phishing Detection through Explainable AI and LLM-Powered Interpretability [44.2907457629342]
EXPLICATEは、三成分アーキテクチャによるフィッシング検出を強化するフレームワークである。
既存のディープラーニング技術と同等ですが、説明性が向上しています。
自動AIとフィッシング検出システムにおけるユーザ信頼の重大な隔たりに対処する。
論文 参考訳(メタデータ) (2025-03-22T23:37:35Z) - CleanVul: Automatic Function-Level Vulnerability Detection in Code Commits Using LLM Heuristics [12.053158610054911]
本稿では,Large Language Model (LLM) を用いて,VFCからの脆弱性修正変更を自動的に識別する手法を提案する。
VulSifterは大規模な研究に適用され、GitHubで127,063のリポジトリをクロールした。
次に,8,203個の関数からなる高品質なデータセットであるCleanVulを開発した。
論文 参考訳(メタデータ) (2024-11-26T09:51:55Z) - VulEval: Towards Repository-Level Evaluation of Software Vulnerability Detection [14.312197590230994]
textbfVulEvalという名前のリポジトリレベルの評価システムは、プロセス間およびプロセス内脆弱性の検出性能を同時に評価することを目的としている。
VulEvalは大規模データセットで構成され、合計で4,196のCVEエントリ、232,239の関数、および対応する4,699のリポジトリレベルのソースコードがC/C++プログラミング言語に含まれる。
論文 参考訳(メタデータ) (2024-04-24T02:16:11Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。