Fugu-MT 論文翻訳(概要): Enhancing Pre-Trained Language Models for Vulnerability Detection via Semantic-Preserving Data Augmentation

論文の概要: Enhancing Pre-Trained Language Models for Vulnerability Detection via Semantic-Preserving Data Augmentation

arxiv url: http://arxiv.org/abs/2410.00249v2
Date: Thu, 3 Oct 2024 00:37:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 06:46:17.086323
Title: Enhancing Pre-Trained Language Models for Vulnerability Detection via Semantic-Preserving Data Augmentation
Title（参考訳）: 意味保存データ拡張による脆弱性検出のための事前学習言語モデルの強化
Authors: Weiliang Qi, Jiahao Cao, Darsh Poddar, Sophia Li, Xinda Wang,
Abstract要約: 本稿では,脆弱性検出のための事前学習言語モデルの性能向上を目的としたデータ拡張手法を提案する。一連の代表的なコード事前訓練モデルの微調整に当社のデータセットを組み込むことで、最大10.1%の精度向上と23.6%のF1増加を達成することができる。
参考スコア（独自算出の注目度）: 4.374800396968465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid development and widespread use of advanced network systems, software vulnerabilities pose a significant threat to secure communications and networking. Learning-based vulnerability detection systems, particularly those leveraging pre-trained language models, have demonstrated significant potential in promptly identifying vulnerabilities in communication networks and reducing the risk of exploitation. However, the shortage of accurately labeled vulnerability datasets hinders further progress in this field. Failing to represent real-world vulnerability data variety and preserve vulnerability semantics, existing augmentation approaches provide limited or even counterproductive contributions to model training. In this paper, we propose a data augmentation technique aimed at enhancing the performance of pre-trained language models for vulnerability detection. Given the vulnerability dataset, our method performs natural semantic-preserving program transformation to generate a large volume of new samples with enriched data diversity and variety. By incorporating our augmented dataset in fine-tuning a series of representative code pre-trained models (i.e., CodeBERT, GraphCodeBERT, UnixCoder, and PDBERT), up to 10.1% increase in accuracy and 23.6% increase in F1 can be achieved in the vulnerability detection task. Comparison results also show that our proposed method can substantially outperform other prominent vulnerability augmentation approaches.
Abstract（参考訳）: 先進的なネットワークシステムの急速な開発と普及により、ソフトウェア脆弱性はセキュアな通信とネットワークに重大な脅威をもたらす。学習に基づく脆弱性検出システム、特に事前訓練された言語モデルを活用するシステムは、通信ネットワークの脆弱性を迅速に特定し、エクスプロイトのリスクを低減する上で大きな可能性を示している。しかし、正確なラベル付き脆弱性データセットの不足は、この分野のさらなる進歩を妨げる。現実世界の脆弱性データの多様性を表現できず、脆弱性セマンティクスを保存できないため、既存の拡張アプローチは、モデルトレーニングに限定的あるいは反生産的な貢献を提供する。本稿では,脆弱性検出のための事前学習言語モデルの性能向上を目的としたデータ拡張手法を提案する。脆弱性データセットから,本手法は自然意味保存プログラム変換を行い,豊富なデータ多様性と多様性を持つ新しいサンプルを大量に生成する。一連の代表的なコード事前トレーニングモデル(CodeBERT、GraphCodeBERT、UnixCoder、PDBERT)の微調整に当社のデータセットを組み込むことで、脆弱性検出タスクでは10.1%の精度向上と23.6%のF1増加が達成できる。比較の結果,提案手法は,他の顕著な脆弱性拡大手法よりも大幅に優れていることが示された。

関連論文リスト

Boosting Vulnerability Detection of LLMs via Curriculum Preference Optimization with Synthetic Reasoning Data [22.557961978833386]
本稿では,脆弱性パターンのマイニングに優れた大規模言語モデル(LLM)の新たなフレームワークを提案する。具体的には、脆弱性と対応する固定コードに対する前方および後方の推論プロセスを構築し、高品質な推論データの合成を保証する。 ReVD は LLM ベースのソフトウェア脆弱性検出のための新たな最先端技術,例えば 12.24%-22.77% の精度向上を実現している。
論文参考訳（メタデータ） (2025-06-09T03:25:23Z)
Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文参考訳（メタデータ） (2025-03-21T06:12:06Z)
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。 ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-11-25T04:17:24Z)
CRepair: CVAE-based Automatic Vulnerability Repair Technology [1.147605955490786]
ソフトウェア脆弱性は、現代のソフトウェアとそのアプリケーションデータの完全性、セキュリティ、信頼性に重大な脅威をもたらす。脆弱性修復の課題に対処するため、研究者らは、学習に基づく自動脆弱性修復技術が広く注目を集めるなど、様々な解決策を提案している。本稿では,システムコードのセキュリティ脆弱性を修正することを目的としたCVAEベースの自動脆弱性修復技術であるCRepairを提案する。
論文参考訳（メタデータ） (2024-11-08T12:55:04Z)
DFEPT: Data Flow Embedding for Enhancing Pre-Trained Model Based Vulnerability Detection [7.802093464108404]
本稿では,脆弱性検出タスクにおける事前学習モデルの性能向上を目的としたデータフロー埋め込み手法を提案する。具体的には,関数レベルのソースコードからデータフローグラフを解析し,DFGのノード特性として変数のデータ型を使用する。我々の研究は、DFEPTが事前訓練されたモデルに効果的な脆弱性セマンティック情報を提供し、Devignデータセットで64.97%、Revealデータセットで47.9%のF1スコアを達成できることを示している。
論文参考訳（メタデータ） (2024-10-24T07:05:07Z)
Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文参考訳（メタデータ） (2024-07-26T10:49:14Z)
Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文参考訳（メタデータ） (2024-06-09T19:18:05Z)
Enhancing Code Vulnerability Detection via Vulnerability-Preserving Data Augmentation [29.72520866016839]
ソースコードの脆弱性検出は、潜在的な攻撃からソフトウェアシステムを保護するための固有の脆弱性を特定することを目的としている。多くの先行研究は、様々な脆弱性の特徴を見落とし、問題をバイナリ(0-1)分類タスクに単純化した。 FGVulDetは、さまざまな脆弱性タイプの特徴を識別するために複数の分類器を使用し、その出力を組み合わせて特定の脆弱性タイプを特定する。 FGVulDetはGitHubの大規模なデータセットでトレーニングされており、5種類の脆弱性を含んでいる。
論文参考訳（メタデータ） (2024-04-15T09:10:52Z)
FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文参考訳（メタデータ） (2024-03-26T08:51:23Z)
Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文参考訳（メタデータ） (2023-03-24T16:03:21Z)
Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文参考訳（メタデータ） (2022-03-25T19:57:19Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
V2W-BERT: A Framework for Effective Hierarchical Multiclass Classification of Software Vulnerabilities [7.906207218788341]
本稿では,Transformer-based learning framework(V2W-BERT)を提案する。自然言語処理,リンク予測,転送学習のアイデアを用いることで,従来の手法よりも優れる。ランダムに分割されたデータの予測精度は最大97%、一時分割されたデータの予測精度は最大94%です。
論文参考訳（メタデータ） (2021-02-23T05:16:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。