論文の概要: Optimizing Code Embeddings and ML Classifiers for Python Source Code Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2509.13134v1
- Date: Tue, 16 Sep 2025 14:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.131799
- Title: Optimizing Code Embeddings and ML Classifiers for Python Source Code Vulnerability Detection
- Title(参考訳): Pythonソースコード脆弱性検出のためのコード埋め込みとML分類器の最適化
- Authors: Talaya Farasat, Joachim Posegga,
- Abstract要約: そこで本研究では,Pythonソースコードにおける脆弱性検出のための,コード埋め込み手法と機械学習分類器の最適組み合わせについて検討した。
我々は、二方向長短期記憶(BiLSTM)ネットワークと畳み込みニューラルネットワーク(CNN)の2つのディープラーニング分類器とともに、Word2Vec、CodeBERT、GraphCodeBERTの3つの埋め込み技術を評価する。
CNNとGraphCodeBERTは高いパフォーマンスを示すが、Word2Vecを使用したBiLSTMモデルは、常に優れた総合的な結果が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the growing complexity and scale of source code have rendered manual software vulnerability detection increasingly impractical. To address this challenge, automated approaches leveraging machine learning and code embeddings have gained substantial attention. This study investigates the optimal combination of code embedding techniques and machine learning classifiers for vulnerability detection in Python source code. We evaluate three embedding techniques, i.e., Word2Vec, CodeBERT, and GraphCodeBERT alongside two deep learning classifiers, i.e., Bidirectional Long Short-Term Memory (BiLSTM) networks and Convolutional Neural Networks (CNN). While CNN paired with GraphCodeBERT exhibits strong performance, the BiLSTM model using Word2Vec consistently achieves superior overall results. These findings suggest that, despite the advanced architectures of recent models like CodeBERT and GraphCodeBERT, classical embeddings such as Word2Vec, when used with sequence-based models like BiLSTM, can offer a slight yet consistent performance advantage. The study underscores the critical importance of selecting appropriate combinations of embeddings and classifiers to enhance the effectiveness of automated vulnerability detection systems, particularly for Python source code.
- Abstract(参考訳): 近年、ソースコードの複雑さとスケールの増大により、手動による脆弱性検出はますます非現実的になっている。
この課題に対処するため、機械学習とコード埋め込みを活用した自動アプローチが注目されている。
そこで本研究では,Pythonソースコードにおける脆弱性検出のための,コード埋め込み手法と機械学習分類器の最適組み合わせについて検討した。
本稿では,二方向長短期記憶(BiLSTM)ネットワークと畳み込みニューラルネットワーク(CNN)の2つのディープラーニング分類器とともに,Word2Vec,CodeBERT,GraphCodeBERTの3つの埋め込み技術を評価する。
CNNとGraphCodeBERTは高いパフォーマンスを示すが、Word2Vecを使用したBiLSTMモデルは、常に優れた総合的な結果が得られる。
これらの結果は、CodeBERTやGraphCodeBERTのような最近のモデルの高度なアーキテクチャにもかかわらず、Word2Vecのような古典的な埋め込みは、BiLSTMのようなシーケンスベースのモデルで使用される場合、わずかながら一貫したパフォーマンス上の利点をもたらすことを示唆している。
この研究は、特にPythonソースコードにおいて、自動脆弱性検出システムの有効性を高めるために、埋め込みと分類器の適切な組み合わせを選択することの重要性を強調している。
関連論文リスト
- Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later [76.66498833720411]
K$-nearest neighbors (KNN) はもともと,インスタンス間のセマンティックな類似性を捉えるために線形投影を学習するために設計されたものだ。
意外なことに、SGDを用いたNAAの実装と次元減少のない実装は、表データの良好な性能をすでに達成しています。
本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - Bi-Directional Transformers vs. word2vec: Discovering Vulnerabilities in Lifted Compiled Code [4.956066467858057]
本研究では,Word2vec,BERT,RoBERTaを用いた自然言語処理(NLP)埋め込み技術を用いた脆弱性検出について検討する。
長い短期記憶(LSTM)ニューラルネットワークは、Julietデータセットから約48kのLLVM関数を使用して生成されたエンコーダからの埋め込みをトレーニングした。
論文 参考訳(メタデータ) (2024-05-31T03:57:19Z) - Feature Engineering-Based Detection of Buffer Overflow Vulnerability in
Source Code Using Neural Networks [2.9266864570485827]
ソースコードから抽出された特徴を学習するニューラルネットワークモデルに基づく脆弱性検出方法。
我々は,GloVeやfastTextといったアートワード埋め込みアルゴリズムの状態を用いて,セマンティックおよび構文情報を維持する。
従来のニューラルネットワークに関わる問題を克服できるニューラルネットワークモデルを提案してきた。
論文 参考訳(メタデータ) (2023-06-01T01:44:49Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - Factorizers for Distributed Sparse Block Codes [45.29870215671697]
分散ブロック符号(SBC)を高速かつ高精度に分解する手法を提案する。
我々の反復分解器は、しきい値に基づく非線形活性化、条件付きランダムサンプリング、および $ell_infty$-based similarity metricを導入している。
CIFAR-100, ImageNet-1K, RAVENデータセット上での4つの深層CNNアーキテクチャの実現可能性を示す。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - Automated Vulnerability Detection in Source Code Using Quantum Natural
Language Processing [0.0]
CとC++のオープンソースコードは、関数レベルの脆弱性識別のための大規模で古典的な機械学習および量子機械学習システムを作成するために利用可能である。
我々は、深層ニューラルネットワークモデルLong Short Term Memory(LSTM)と量子機械学習モデルLong Short Term Memory(QLSTM)に基づく、効率的でスケーラブルな脆弱性検出手法を開発した。
意味的および構文的特徴を持つQLSTMは、極めて正確な脆弱性を検出し、従来のものよりも高速に実行される。
論文 参考訳(メタデータ) (2023-03-13T23:27:42Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Connecting Weighted Automata, Tensor Networks and Recurrent Neural
Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。
本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:28:00Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。