論文の概要: K-ASTRO: Structure-Aware Adaptation of LLMs for Code Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2208.08067v3
- Date: Mon, 13 Oct 2025 22:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 16:45:44.257396
- Title: K-ASTRO: Structure-Aware Adaptation of LLMs for Code Vulnerability Detection
- Title(参考訳): K-ASTRO:コード脆弱性検出のためのLLMの構造認識適応
- Authors: Yifan Zhang, Michael Sandborn, Stefan Larson, Yu Huang, Kevin Leach,
- Abstract要約: K-ASTROは、大規模言語モデルからのセマンティック埋め込みと抽象構文木(AST)の構造的特徴を組み合わせた軽量なトランスフォーマーモデルで、コード脆弱性検出の効率と精度を向上させる。
提案手法では,突然変異検査にインスパイアされたASTベースの拡張手法,拡張AST機能を組み込んだ構造認識型アテンション機構,コードセマンティクスと構文を統一する共同適応パイプラインを導入している。
- 参考スコア(独自算出の注目度): 12.458619777971956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are transforming software engineering tasks, including code vulnerability detection-a critical area of software security. However, existing methods often rely on resource-intensive models or graph-based techniques, limiting their accessibility and practicality. This paper introduces K-ASTRO, a lightweight Transformer model that combines semantic embeddings from LLMs with structural features of Abstract Syntax Trees (ASTs) to improve both efficiency and accuracy in code vulnerability detection. Our approach introduces an AST-based augmentation technique inspired by mutation testing, a structure-aware attention mechanism that incorporates augmented AST features, and a joint adaptation pipeline to unify code semantics and syntax. Experimental results on three large-scale datasets, including BigVul, DiverseVul, and PrimeVul-demonstrate state-of-the-art performance while enabling rapid inference on CPUs with minimal training time. By offering a scalable, interpretable, and efficient solution, K-ASTRO bridges the gap between LLM advancements and practical software vulnerability detection, providing open-sourced tools to foster further research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェアセキュリティの重要な領域であるコードの脆弱性検出を含む、ソフトウェアエンジニアリングタスクを変革している。
しかし、既存の手法はしばしばリソース集約モデルやグラフベースの手法に依存し、アクセシビリティと実用性を制限する。
本稿では,LLMからのセマンティック埋め込みと抽象構文木(AST)の構造的特徴を組み合わせた軽量トランスフォーマーモデルK-ASTROを提案する。
提案手法では,突然変異検査にインスパイアされたASTベースの拡張手法,拡張AST機能を組み込んだ構造認識型アテンション機構,コードセマンティクスと構文を統一する共同適応パイプラインを導入している。
BigVul、DiverseVul、PrimeVul-demonstrateの3つの大規模データセットの実験結果が得られた。
スケーラブルで解釈可能で効率的なソリューションを提供することで、K-ASTROはLLMの進歩と実用的なソフトウェア脆弱性検出のギャップを埋め、さらなる研究を促進するためのオープンソースツールを提供する。
関連論文リスト
- RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis [53.90240071275054]
SLM(Small Language Models)によるローカライズドインテリジェンスへの移行により、リソース制約のあるエッジハードウェア上での厳密なパフォーマンス評価の必要性が高まっている。
運用強度レンズ(OI)によるアーキテクチャプリミティブとハードウェア制約を統一する体系的フレームワークを提案する。
推論-ポテンシャル領域を定義することにより、同一ハードウェア基板上のLarge Language Models(LLM)の効率差を比較するための新しい指標として、相対推論ポテンシャルを導入する。
論文 参考訳(メタデータ) (2026-02-12T03:02:22Z) - Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。
脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:48:22Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Enhancing Large Language Models with Faster Code Preprocessing for Vulnerability Detection [0.0]
既存のSCoPEフレームワーク上に構築し、パフォーマンスを改善した拡張バージョンであるSCoPE2を導入します。
SCoPE2による処理時間を97.3%削減し,脆弱性検出のためのLarge Language Model(LLM)のF1スコアを改良した。
論文 参考訳(メタデータ) (2025-05-08T19:00:11Z) - EnStack: An Ensemble Stacking Framework of Large Language Models for Enhanced Vulnerability Detection in Source Code [1.9374282535132379]
本稿では,自然言語処理(NLP)技術を用いた脆弱性検出を支援する,新たなアンサンブルスタックフレームワークであるEnStackを紹介する。
本手法は,コード理解に特化した複数の事前学習型大規模言語モデル(LLM)を相乗化する。
メタ分類器はそれぞれのLSMの強度を集約し、微妙で複雑な脆弱性を検知する包括的なモデルをもたらす。
論文 参考訳(メタデータ) (2024-11-25T16:47:10Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。
CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。
本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:05:49Z) - Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。
実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文 参考訳(メタデータ) (2024-06-09T19:18:05Z) - Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models [71.39421638547164]
本稿では,入力分子と再構成グラフの類似性を比較する補助拡散モデルに基づくフレームワークを用いてOOD分子を検出することを提案する。
IDトレーニングサンプルの再構成に向けた生成バイアスのため、OOD分子の類似度スコアは検出を容易にするためにはるかに低い。
本研究は,PGR-MOOD(PGR-MOOD)とよばれる分子OOD検出のためのプロトタイプグラフ再構成のアプローチを開拓し,3つのイノベーションを生かした。
論文 参考訳(メタデータ) (2024-04-24T03:25:53Z) - Fusing Dictionary Learning and Support Vector Machines for Unsupervised Anomaly Detection [1.5999407512883508]
本稿では,OC-SVMとDL残差関数を1つの合成対象に統一する新たな異常検出モデルを提案する。
両方の目的をカーネル関数の使用を可能にするより一般的な設定に拡張する。
論文 参考訳(メタデータ) (2024-04-05T12:41:53Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - Using Ensemble Inference to Improve Recall of Clone Detection [0.0]
大規模なソースコードクローン検出は難しい課題である。
我々は、最先端のニューラルネットワークモデル4つを採用し、それらを個別に/または組み合わせて評価する。
その結果、およそ5万行のC/C++コードからなるイラストレーションデータセット上で、アンサンブル推論は、すべての試行ケースで個々のモデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T09:44:59Z) - Understanding the Natural Language of DNA using Encoder-Decoder Foundation Models with Byte-level Precision [26.107996342704915]
本稿では,Ensemble Nucleotide Byte-level-Decoder(ENBED)基盤モデルを提案する。
我々はMasked Language Modelingを用いて、参照ゲノム配列を用いて基礎モデルを事前訓練し、以下の下流タスクに適用する。
これらの課題のそれぞれにおいて、既存の最先端の成果と比較して顕著な改善が示される。
論文 参考訳(メタデータ) (2023-11-04T06:00:56Z) - Using a Nearest-Neighbour, BERT-Based Approach for Scalable Clone
Detection [0.0]
SSCDはBERTベースのクローン検出アプローチで、Type 3とType 4のクローンの大規模なリコールをターゲットとしている。
これは、各コードフラグメントへの代表埋め込みを計算し、近くの検索を使って類似のフラグメントを見つけることで実現している。
本稿では,産業環境でのアプローチの設定と評価に対するアプローチと経験的評価について述べる。
論文 参考訳(メタデータ) (2023-09-05T12:38:55Z) - Multilayer Multiset Neuronal Networks -- MMNNs [55.2480439325792]
本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。
また,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。
論文 参考訳(メタデータ) (2023-08-28T12:55:13Z) - DCDetector: An IoT terminal vulnerability mining system based on
distributed deep ensemble learning under source code representation [2.561778620560749]
この研究の目的は、C/C++のような高レベルの言語のソースコードの脆弱性をインテリジェントに検出することである。
これにより、ソースコードのセンシティブな文関連スライスをコード表現し、分散深層学習モデルの設計により脆弱性を検出することができる。
実験により,従来の静的解析の偽陽性率を低減し,機械学習の性能と精度を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-29T14:19:14Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z) - Detecting Code Clones with Graph Neural Networkand Flow-Augmented
Abstract Syntax Tree [30.484662671342935]
フロー拡張抽象構文木(FA-AST)と呼ばれるプログラムのグラフ表現を構築する。
FA-ASTに2種類のグラフニューラルネットワークを適用し、コードペアの類似性を計測する。
当社のアプローチは,Google Code JamとBigCloneBenchタスクの両面で,最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-02-20T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。