Fugu-MT 論文翻訳(概要): On using distributed representations of source code for the detection of C security vulnerabilities

論文の概要: On using distributed representations of source code for the detection of C security vulnerabilities

arxiv url: http://arxiv.org/abs/2106.01367v1
Date: Tue, 1 Jun 2021 21:18:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-05 08:22:53.552706
Title: On using distributed representations of source code for the detection of C security vulnerabilities
Title（参考訳）: Cセキュリティ脆弱性検出のためのソースコードの分散表現について
Authors: David Coimbra, Sofia Reis, Rui Abreu, Corina P\u{a}s\u{a}reanu, Hakan Erdogmus
Abstract要約: 本稿では,C ソースコードの脆弱性検出作業において,コード表現モデル Code2vec の評価を行った。我々はオープンソースのライブラリAstminerを利用して、ラベル付きC関数のコーパスの抽象構文木からパスコンテキストを抽出する。 Code2vecは、関数を脆弱性または非脆弱性として分類するタスクで、結果のパスコンテキストに基づいてトレーニングされる。
参考スコア（独自算出の注目度）: 14.8831988481175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents an evaluation of the code representation model Code2vec when trained on the task of detecting security vulnerabilities in C source code. We leverage the open-source library astminer to extract path-contexts from the abstract syntax trees of a corpus of labeled C functions. Code2vec is trained on the resulting path-contexts with the task of classifying a function as vulnerable or non-vulnerable. Using the CodeXGLUE benchmark, we show that the accuracy of Code2vec for this task is comparable to simple transformer-based methods such as pre-trained RoBERTa, and outperforms more naive NLP-based methods. We achieved an accuracy of 61.43% while maintaining low computational requirements relative to larger models.
Abstract（参考訳）: 本稿では,c ソースコードのセキュリティ脆弱性検出タスクにおいて,コード表現モデル code2vec の評価を行う。我々はオープンソースライブラリのastminerを利用してラベル付きc関数のコーパスの抽象構文木からパスコンテキストを抽出する。 code2vecは、関数を脆弱か非破壊可能かを分類するタスクで、結果のパスコンテキストでトレーニングされる。 CodeXGLUEベンチマークを用いて、このタスクのCode2vecの精度は、事前訓練されたRoBERTaのような単純なトランスフォーマーベースのメソッドに匹敵し、より単純なNLPベースのメソッドよりも優れていることを示す。我々は,より大きなモデルに対して低計算要求を維持しながら,61.43%の精度を実現した。

関連論文リスト

A Mixture of Linear Corrections Generates Secure Code [20.94236753015922]
大規模言語モデル(LLM)は、洗練されたコード生成タスクに熟練しているが、コードの脆弱性を確実に検出または回避するには効果がない。現在のLLMは、脆弱なコードとセキュアなコードとを区別する正確な内部表現を符号化している。本研究では,モデルのトークン生成確率を補正によって微調整する推論時ステアリング手法を開発した。
論文参考訳（メタデータ） (2025-07-13T06:27:33Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。 CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文参考訳（メタデータ） (2024-06-10T00:05:49Z)
Bi-Directional Transformers vs. word2vec: Discovering Vulnerabilities in Lifted Compiled Code [4.956066467858057]
本研究では,Word2vec,BERT,RoBERTaを用いた自然言語処理(NLP)埋め込み技術を用いた脆弱性検出について検討する。長い短期記憶(LSTM)ニューラルネットワークは、Julietデータセットから約48kのLLVM関数を使用して生成されたエンコーダからの埋め込みをトレーニングした。
論文参考訳（メタデータ） (2024-05-31T03:57:19Z)
FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文参考訳（メタデータ） (2024-03-27T09:45:33Z)
BinaryAI: Binary Software Composition Analysis via Intelligent Binary Source Code Matching [8.655595404611821]
BinaryAIは2フェーズのバイナリソースコードマッチングを備えた新しいバイナリ・ソースSCA技術で、構文的および意味的両方のコード特徴をキャプチャする。実験の結果、バイナリソースコードマッチングと下流SCAタスクにおいて、BinaryAIの優れた性能を示しました。
論文参考訳（メタデータ） (2024-01-20T07:57:57Z)
VMCDL: Vulnerability Mining Based on Cascaded Deep Learning Under Source Control Flow [2.561778620560749]
本稿では,主にSARDデータセットのc/c++ソースコードデータを用いて,CWE476,CWE469,CWE516,CWE570の脆弱性型のソースコードを処理する。本稿では,ソースコード制御フローに基づく新しいカスケード深層学習モデルVMCDLを提案し,脆弱性を効果的に検出する。
論文参考訳（メタデータ） (2023-03-13T13:58:39Z)
VulBERTa: Simplified Source Code Pre-Training for Vulnerability Detection [1.256413718364189]
VulBERTaは、ソースコードのセキュリティ脆弱性を検出するためのディープラーニングアプローチである。当社のアプローチでは,オープンソースのC/C++プロジェクトの実世界のコードに対して,独自のトークン化パイプラインを備えたRoBERTaモデルを事前トレーニングする。複数のデータセットにまたがるバイナリおよびマルチクラス脆弱性検出タスクに対するアプローチを評価する。
論文参考訳（メタデータ） (2022-05-25T00:56:43Z)
Learning Stable Classifiers by Transferring Unstable Features [59.06169363181417]
本研究では,素早い相関関係の存在下での伝達学習について検討する。提案手法は, ソースタスクで学習した安定な特徴抽出器を直接転送しても, 対象タスクのバイアスを排除できないことを実験的に実証する。我々は、ソースタスクの不安定な特徴とターゲットタスクの不安定な特徴が直接関連していると仮定する。
論文参考訳（メタデータ） (2021-06-15T02:41:12Z)
Detecting Security Fixes in Open-Source Repositories using Static Code Analyzers [8.716427214870459]
機械学習(ML)アプリケーションにおけるコミットを表現する機能として,既製の静的コードアナライザの出力がどの程度使用されるかを検討する。埋め込みの構築やMLモデルをトレーニングして、脆弱性修正を含むソースコードコミットを自動的に識別する方法について検討する。当社のメソッドとcommit2vecの組み合わせは,脆弱性を修正するコミットの自動識別において,最先端技術よりも明確な改善であることがわかった。
論文参考訳（メタデータ） (2021-05-07T15:57:17Z)
Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文参考訳（メタデータ） (2020-07-09T17:59:06Z)
Second-Order Provable Defenses against Adversarial Attacks [63.34032156196848]
ネットワークの固有値が有界であれば、凸最適化を用いて$l$ノルムの証明を効率的に計算できることを示す。認証精度は5.78%,44.96%,43.19%であった。
論文参考訳（メタデータ） (2020-06-01T05:55:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。