論文の概要: VulnScout-C: A Lightweight Transformer for C Code Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2603.28309v1
- Date: Mon, 30 Mar 2026 11:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.361697
- Title: VulnScout-C: A Lightweight Transformer for C Code Vulnerability Detection
- Title(参考訳): VulnScout-C:Cコードの脆弱性検出のための軽量トランス
- Authors: Aymen Lassoued, Nacef Mbarek, Bechir Dardouri, Bassem Ouni, Qing Li, Fakhri Karray,
- Abstract要約: 693Mの総パラメータを持つコンパクトトランスアーキテクチャであるVULNSCOUT-Cを導入する(353M)。
VULNSCOUTは、制御されたマルチエージェントパイプラインを通じて生成され、正式な検証を行う新しい33,565サンプルのキュレートデータセットである。
- 参考スコア(独自算出の注目度): 7.838448990374985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vulnerability detection in C programs is a critical challenge in software security. Although large language models (LLMs) achieve strong detection performance, their multi-billion-parameter scale makes them impractical for integration into development workflows requiring low latency and continuous analysis. We introduce VULNSCOUT-C, a compact transformer architecture with 693M total parameters (353M active during inference), derived from the Qwen model family and optimized for C code vulnerability detection. Alongside the model, we present VULNSCOUT, a new 33,565-sample curated dataset generated through a controlled multi-agent pipeline with formal verification, designed to fill coverage gaps in existing benchmarks across underrepresented CWE categories. Evaluated on a standardized C vulnerability detection benchmark, VULNSCOUT-C outperforms all evaluated baselines, including state-of-the-art reasoning LLMs and commercial static analysis tools, while offering a fraction of their inference cost. These results demonstrate that task-specialized compact architectures can match or even outperform the detection capability of models orders of magnitude larger, making continuous, low-latency vulnerability analysis practical within real-world development workflows.
- Abstract(参考訳): Cプログラムの脆弱性検出は、ソフトウェアセキュリティにおいて重要な課題である。
大きな言語モデル(LLM)は強力な検出性能を実現するが、そのマルチビリオンパラメータスケールは、低レイテンシと連続解析を必要とする開発ワークフローに統合するには実用的ではない。
本稿では、Qwenモデルファミリーから派生した693Mの総パラメータ (353M) を持つコンパクトトランスアーキテクチャであるVULNSCOUT-Cを紹介し、Cコードの脆弱性検出に最適化した。
VULNSCOUTは、制御されたマルチエージェントパイプラインを通じて生成された33,565サンプルのキュレートデータセットで、形式的な検証を行い、未表現のCWEカテゴリにわたる既存のベンチマークのカバレッジギャップを埋めるように設計されている。
標準化されたC脆弱性検出ベンチマークに基づいて評価されたVULNSCOUT-Cは、最先端の推論LPMや商用の静的解析ツールを含む、評価されたベースラインをすべて上回り、推論コストのごく一部を提供する。
これらの結果から,タスク特化型コンパクトアーキテクチャは,大規模モデルの検出能力に匹敵する,あるいは性能が向上し,連続的かつ低レイテンシな脆弱性解析が現実的な開発ワークフロー内で実現可能であることが示唆された。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing [51.56484100374058]
CLAIREは、教師なしの深層表現学習と、スマート製造システムにおけるインテリジェントな品質管理のための教師付き分類を統合したハイブリッドエンドツーエンド学習フレームワークである。
最適化されたディープオートエンコーダを使用して、生の入力をコンパクトな潜伏空間に変換し、不適切な特徴やノイズを抑えながら本質的なデータ構造を効果的にキャプチャする。
提案したフレームワークは、堅牢な障害検出のために、説明可能なAIと機能認識の正規化を統合する可能性を強調している。
論文 参考訳(メタデータ) (2026-03-06T15:11:58Z) - LLMs in Code Vulnerability Analysis: A Proof of Concept [0.3441021278275805]
従来のソフトウェアセキュリティ分析手法は、現代人の規模や複雑さに合わせたペースを維持するのに苦労している。
本稿では,重要なソフトウェアセキュリティタスクを自動化するために,コード固有および汎用大規模言語モデルの導入について検討する。
論文 参考訳(メタデータ) (2026-01-13T16:16:11Z) - Securing LLM-Generated Embedded Firmware through AI Agent-Driven Validation and Patching [0.9582466286528458]
大規模言語モデル(LLM)は組み込みシステムのためのファームウェアの生成を約束するが、しばしばセキュリティ上の欠陥を導入し、リアルタイムのパフォーマンス制約を満たさない。
本稿では,LLMベースのファームウェア生成と自動セキュリティ検証,反復的改善を組み合わせた3段階手法を提案する。
論文 参考訳(メタデータ) (2025-09-12T05:15:35Z) - White-Basilisk: A Hybrid Model for Code Vulnerability Detection [45.03594130075282]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - A Large Language Model-Empowered Agent for Reliable and Robust Structural Analysis [14.754785659805869]
大規模言語モデル(LLM)は、様々なオープンドメインタスクにまたがる顕著な能力を示してきたが、土木工学のような専門分野への応用は、いまだに未解明のままである。
本稿では, ビーム構造解析におけるLCMの信頼性とロバスト性を評価することによって, このギャップを埋める。
実験の結果, エージェントはベンチマークデータセット上で99.0%を超える精度を達成し, 多様な条件で信頼性と堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2025-06-27T04:16:53Z) - SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。
このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文 参考訳(メタデータ) (2025-05-26T11:06:03Z) - Case Study: Fine-tuning Small Language Models for Accurate and Private CWE Detection in Python Code [0.0]
大規模言語モデル(LLM)は、セキュリティ脆弱性に対するコードの理解と分析において重要な機能を示している。
この研究は、正確でオンプレミスの脆弱性検出に有効な代替手段として、Small Language Models(SLM)の可能性を探るものである。
論文 参考訳(メタデータ) (2025-04-23T10:05:27Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。