Fugu-MT 論文翻訳(概要): An Information-Theoretic and Contrastive Learning-based Approach for Identifying Code Statements Causing Software Vulnerability

論文の概要: An Information-Theoretic and Contrastive Learning-based Approach for Identifying Code Statements Causing Software Vulnerability

arxiv url: http://arxiv.org/abs/2209.10414v1
Date: Tue, 20 Sep 2022 00:46:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-22 15:50:01.060242
Title: An Information-Theoretic and Contrastive Learning-based Approach for Identifying Code Statements Causing Software Vulnerability
Title（参考訳）: ソフトウェア脆弱性の原因となるコードステートメントを識別するための情報理論と対比学習に基づくアプローチ
Authors: Van Nguyen, Trung Le, Chakkrit Tantithamthavorn, John Grundy, Hung Nguyen, Seyit Camtepe, Paul Quirk and Dinh Phung
Abstract要約: 脆弱性ラベリングは現在、機械学習ツールの助けを借りて、専門家によって関数またはプログラムレベルで実施されている。本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
参考スコア（独自算出の注目度）: 23.151478493811652
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software vulnerabilities existing in a program or function of computer systems are a serious and crucial concern. Typically, in a program or function consisting of hundreds or thousands of source code statements, there are only few statements causing the corresponding vulnerabilities. Vulnerability labeling is currently done on a function or program level by experts with the assistance of machine learning tools. Extending this approach to the code statement level is much more costly and time-consuming and remains an open problem. In this paper we propose a novel end-to-end deep learning-based approach to identify the vulnerability-relevant code statements of a specific function. Inspired by the specific structures observed in real world vulnerable code, we first leverage mutual information for learning a set of latent variables representing the relevance of the source code statements to the corresponding function's vulnerability. We then propose novel clustered spatial contrastive learning in order to further improve the representation learning and the robust selection process of vulnerability-relevant code statements. Experimental results on real-world datasets of 200k+ C/C++ functions show the superiority of our method over other state-of-the-art baselines. In general, our method obtains a higher performance in VCP, VCA, and Top-10 ACC measures of between 3\% to 14\% over the baselines when running on real-world datasets in an unsupervised setting. Our released source code samples are publicly available at \href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.}
Abstract（参考訳）: コンピュータシステムのプログラムや機能に存在するソフトウェアの脆弱性は、深刻で重要な問題である。通常、数百から数千のソースコードステートメントからなるプログラムや関数では、対応する脆弱性を引き起こすステートメントはごくわずかである。脆弱性ラベリングは現在、マシンラーニングツールの助けを借りて、専門家による関数やプログラムレベルで行われている。このアプローチをコードステートメントレベルにまで拡張するのは、はるかにコストと時間を要するため、依然としてオープンな問題です。本稿では,特定の関数の脆弱性関連コード文を特定するための,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。実世界の脆弱性コードに見られる特定の構造にインスパイアされ、まず相互情報を利用して、ソースコードステートメントと対応する関数の脆弱性との関連性を表す潜伏変数の集合を学習する。そこで我々は,脆弱性関連コード文の表現学習とロバスト選択プロセスをさらに改善するために,新しい空間的コントラスト学習を提案する。 200k以上のc/c++関数の実世界のデータセットにおける実験結果は、他の最先端のベースラインよりも優れた方法を示している。一般に,本手法は,教師なし環境で実世界のデータセット上で動作する場合,ベースライン上でのVCP,VCA,Top-10 ACCの3倍から14倍の精度を示す。リリース済みのソースコードサンプルは、 \href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.comで公開されています。 }

関連論文リスト

Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文参考訳（メタデータ） (2026-01-09T02:38:24Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
FuncVul: An Effective Function Level Vulnerability Detection Model using LLM and Code Chunk [8.736988409083981]
ソフトウェアサプライチェーンの脆弱性は、攻撃者が広く使われているパッケージやライブラリに脆弱性のあるコードを注入する際に発生する。本稿では,C/C++とPythonの関数レベル脆弱性検出のためのコードチャンクベースモデルであるFuncVulを紹介する。 FuncVulは、より小さくクリティカルなコードセグメントに焦点を当てて、関数内の複数の脆弱性を特定する。
論文参考訳（メタデータ） (2025-06-24T09:30:40Z)
SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文参考訳（メタデータ） (2025-05-26T11:06:03Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
Fixseeker: An Empirical Driven Graph-based Approach for Detecting Silent Vulnerability Fixes in Open Source Software [12.706661324384319]
オープンソースソフトウェアの脆弱性は、ダウンストリームアプリケーションに重大なセキュリティリスクをもたらす。多くのセキュリティパッチは、セキュリティへの影響を明確に示すことなく、OSSリポジトリの新しいコミットで静かにリリースされている。グラフベースのアプローチであるFixseekerを提案し、ハンクレベルでのコード変更間の様々な相関関係を抽出し、無声脆弱性の修正を検出する。
論文参考訳（メタデータ） (2025-03-26T06:16:58Z)
Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。 Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文参考訳（メタデータ） (2025-03-22T23:59:17Z)
FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文参考訳（メタデータ） (2024-03-27T09:45:33Z)
Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文参考訳（メタデータ） (2024-03-24T12:41:58Z)
The Vulnerability Is in the Details: Locating Fine-grained Information of Vulnerable Code Identified by Graph-based Detectors [33.395068754566935]
VULEXPLAINERは、粗いレベルの脆弱なコードスニペットから脆弱性クリティカルなコード行を見つけるためのツールである。 C/C++の一般的な8つの脆弱性に対して、90%の精度で脆弱性をトリガするコードステートメントにフラグを付けることができる。
論文参考訳（メタデータ） (2024-01-05T10:15:04Z)
Learning to Quantize Vulnerability Patterns and Match to Locate Statement-Level Vulnerabilities [19.6975205650411]
さまざまな脆弱性パターンを表す量子化されたベクトルで構成される脆弱性コードブックが学習される。推論の間、コードブックは、すべての学習パターンにマッチし、潜在的な脆弱性の存在を予測するために反復される。提案手法は188,000以上のC/C++関数からなる実世界のデータセットに対して広範に評価された。
論文参考訳（メタデータ） (2023-05-26T04:13:31Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
VUDENC: Vulnerability Detection with Deep Learning on a Natural Codebase for Python [8.810543294798485]
VUDENCはディープラーニングベースの脆弱性検出ツールである。大規模で現実世界のPythonコーパスから脆弱性のあるコードの特徴を学ぶ。 VUDENCのリコール率は78%-87%、精度82%-96%、F1スコア80%-90%である。
論文参考訳（メタデータ） (2022-01-20T20:29:22Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)
Multi-context Attention Fusion Neural Network for Software Vulnerability Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文参考訳（メタデータ） (2021-04-19T11:50:36Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。