論文の概要: VulStyle: A Multi-Modal Pre-Training for Code Stylometry-Augmented Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2604.26313v1
- Date: Wed, 29 Apr 2026 05:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.264277
- Title: VulStyle: A Multi-Modal Pre-Training for Code Stylometry-Augmented Vulnerability Detection
- Title(参考訳): VulStyle: コードスティロメトリによる脆弱性検出のためのマルチモーダル事前トレーニング
- Authors: Chidera Biringa, Ajmal Abbas, Vishnu Selvaraj, Gokhan Kul,
- Abstract要約: VulStyleはマルチモーダルソフトウェア脆弱性検出モデルである。
関数レベルのソースコード、非終端抽象構文木(AST)構造、およびコードスタイメトリー(CStyle)機能を共同でエンコードする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present VulStyle, a multi-modal software vulnerability detection model that jointly encodes function-level source code, non-terminal Abstract Syntax Tree (AST) structure, and code stylometry (CStyle) features. Prior work in code representation primarily leverages token-level models or full AST trees, often missing stylistic cues indicative of risky programming practices, or incurring high structural overhead. Our approach selects only non-terminal AST nodes, reducing input complexity while preserving semantic hierarchy, and integrates syntactic and lexical CStyle features as auxiliary vulnerability signals. VulStyle is pre-trained using masked language modeling on 4.9M functions across seven programming languages, and fine-tuned across five benchmark datasets: Devign, BigVul, DiverseVul, REVEAL, and VulDeePecker. VulStyle achieves state-of-the-art performance on BigVul and VulDeePecker, improving F1 by 4-48% over strong transformer baselines, and attains competitive or best-average performance across all benchmarks. We contribute an ablation study isolating the effect of CStyle and AST structure, error case analysis, and a threat model situating the detection task in attacker-realistic scenarios.
- Abstract(参考訳): VulStyleは、関数レベルのソースコード、非終端抽象構文木(AST)構造、およびコードスタイメトリー(CStyle)機能を共同でエンコードするマルチモーダルソフトウェア脆弱性検出モデルである。
コード表現における以前の作業は、主にトークンレベルのモデルや完全なASTツリーを活用しており、しばしばリスクのあるプログラミングプラクティスを示すスタイル的なヒントが欠けているか、あるいは高い構造的オーバーヘッドが生じる。
提案手法では,非終端ASTノードのみを選択し,意味的階層を保ちながら入力複雑性を低減し,構文的および語彙的CStyle機能を補助的脆弱性信号として統合する。
VulStyleは、7つのプログラミング言語にわたる4.9M関数のマスク付き言語モデリングを使用して事前トレーニングされており、Devoign、BigVul、DiverseVul、REVEAL、VulDeePeckerの5つのベンチマークデータセットに微調整されている。
VulStyleはBigVulとVulDeePeckerの最先端のパフォーマンスを達成し、強力なトランスフォーマーベースラインよりもF1を4~48%改善し、すべてのベンチマークで競合や最高のパフォーマンスを実現している。
我々は, CStyle と AST 構造の効果を分離するアブレーション研究, エラーケース解析, および攻撃現実シナリオにおける検出タスクを満足する脅威モデルに寄与する。
関連論文リスト
- CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。
既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。
動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:41:41Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - Breaking Obfuscation: Cluster-Aware Graph with LLM-Aided Recovery for Malicious JavaScript Detection [9.83040332336481]
悪意あるJavaScriptコードは、ユーザのプライバシ、システム整合性、エンタープライズセキュリティに重大な脅威をもたらす。
大規模言語モデル(LLM)に基づく難読化とコードグラフ学習を組み合わせたハイブリッドディフェンスフレームワークであるDeCodaを提案する。
論文 参考訳(メタデータ) (2025-07-30T07:46:49Z) - LLMxCPG: Context-Aware Vulnerability Detection Through Code Property Graph-Guided Large Language Models [2.891351178680099]
本稿では,コードプロパティグラフ(CPG)とLarge Language Models(LLM)を統合し,堅牢な脆弱性検出を行う新しいフレームワークを提案する。
より簡潔で正確なコードスニペット表現を提供するアプローチの能力は、より大きなコードセグメントの分析を可能にします。
実証的な評価は、検証済みデータセット間でLLMxCPGの有効性を示し、最先端のベースラインよりもF1スコアが15~40%改善されている。
論文 参考訳(メタデータ) (2025-07-22T13:36:33Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - EnStack: An Ensemble Stacking Framework of Large Language Models for Enhanced Vulnerability Detection in Source Code [1.9374282535132379]
本稿では,自然言語処理(NLP)技術を用いた脆弱性検出を支援する,新たなアンサンブルスタックフレームワークであるEnStackを紹介する。
本手法は,コード理解に特化した複数の事前学習型大規模言語モデル(LLM)を相乗化する。
メタ分類器はそれぞれのLSMの強度を集約し、微妙で複雑な脆弱性を検知する包括的なモデルをもたらす。
論文 参考訳(メタデータ) (2024-11-25T16:47:10Z) - VulBERTa: Simplified Source Code Pre-Training for Vulnerability
Detection [1.256413718364189]
VulBERTaは、ソースコードのセキュリティ脆弱性を検出するためのディープラーニングアプローチである。
当社のアプローチでは,オープンソースのC/C++プロジェクトの実世界のコードに対して,独自のトークン化パイプラインを備えたRoBERTaモデルを事前トレーニングする。
複数のデータセットにまたがるバイナリおよびマルチクラス脆弱性検出タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-05-25T00:56:43Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。