Fugu-MT 論文翻訳(概要): Pre-training by Predicting Program Dependencies for Vulnerability Analysis Tasks

論文の概要: Pre-training by Predicting Program Dependencies for Vulnerability Analysis Tasks

arxiv url: http://arxiv.org/abs/2402.00657v1
Date: Thu, 1 Feb 2024 15:18:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 15:03:29.033799
Title: Pre-training by Predicting Program Dependencies for Vulnerability Analysis Tasks
Title（参考訳）: 脆弱性解析タスクのプログラム依存性予測による事前学習
Authors: Zhongxin Liu, Zhijie Tang, Junwei Zhang, Xin Xia, and Xiaohu Yang
Abstract要約: 本研究は、制御依存予測(CDP)とデータ依存予測(DDP)という、2つの新しい事前学習目標を提案する。 CDPとDDPは、それぞれステートメントレベルのコントロール依存性とトークンレベルのデータ依存関係を、ソースコードのみに基づいてコードスニペットで予測することを目的としている。事前トレーニング後、CDPとDDPは、微調整中に脆弱なコードの理解を高めることができ、部分関数と完全関数の両方に対する依存分析を直接実行できる。
参考スコア（独自算出の注目度）: 12.016029378106131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vulnerability analysis is crucial for software security. This work focuses on using pre-training techniques to enhance the understanding of vulnerable code and boost vulnerability analysis. The code understanding ability of a pre-trained model is highly related to its pre-training objectives. The semantic structure, e.g., control and data dependencies, of code is important for vulnerability analysis. However, existing pre-training objectives either ignore such structure or focus on learning to use it. The feasibility and benefits of learning the knowledge of analyzing semantic structure have not been investigated. To this end, this work proposes two novel pre-training objectives, namely Control Dependency Prediction (CDP) and Data Dependency Prediction (DDP), which aim to predict the statement-level control dependencies and token-level data dependencies, respectively, in a code snippet only based on its source code. During pre-training, CDP and DDP can guide the model to learn the knowledge required for analyzing fine-grained dependencies in code. After pre-training, the pre-trained model can boost the understanding of vulnerable code during fine-tuning and can directly be used to perform dependence analysis for both partial and complete functions. To demonstrate the benefits of our pre-training objectives, we pre-train a Transformer model named PDBERT with CDP and DDP, fine-tune it on three vulnerability analysis tasks, i.e., vulnerability detection, vulnerability classification, and vulnerability assessment, and also evaluate it on program dependence analysis. Experimental results show that PDBERT benefits from CDP and DDP, leading to state-of-the-art performance on the three downstream tasks. Also, PDBERT achieves F1-scores of over 99% and 94% for predicting control and data dependencies, respectively, in partial and complete functions.
Abstract（参考訳）: 脆弱性分析はソフトウェアセキュリティにとって不可欠である。この研究は、脆弱性コードの理解を強化し、脆弱性分析を促進するために、事前トレーニング技術を使うことに焦点を当てている。事前学習モデルのコード理解能力は,その事前学習目標と強く関連している。コードの制御やデータ依存といったセマンティック構造は、脆弱性分析において重要である。しかし、既存の事前学習の目的は、そのような構造を無視したり、それを使うための学習に集中する。意味構造分析の知識を習得する可能性とメリットは検討されていない。この目的のために本研究では,ソースコードのみに基づくコードスニペットにおいて,文レベルの制御依存性とトークンレベルのデータ依存性をそれぞれ予測することを目的とした,制御依存性予測(CDP)とデータ依存性予測(DDP)という,2つの新たな事前学習目標を提案する。事前トレーニングの間、CDPとDDPは、コード内のきめ細かい依存関係を分析するのに必要な知識を学ぶためにモデルをガイドすることができる。事前トレーニング後、事前トレーニングされたモデルは、微調整中の脆弱なコードの理解を高めることができ、部分関数と完全関数の両方の依存分析を直接行うことができる。事前学習対象の利点を示すために,PDBERT という名前の Transformer モデルを CDP と DDP で事前学習し,脆弱性検出,脆弱性分類,脆弱性評価という3つの脆弱性解析タスクで微調整し,プログラム依存解析で評価する。実験の結果,PDBERT は CDP と DDP の恩恵を受け,3 つの下流タスクにおける最先端のパフォーマンスが得られた。またPDBERTは、部分関数と完全関数でそれぞれ制御とデータ依存を予測するために、99%以上と94%以上のF1スコアを達成する。

関連論文リスト

Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
DFEPT: Data Flow Embedding for Enhancing Pre-Trained Model Based Vulnerability Detection [7.802093464108404]
本稿では,脆弱性検出タスクにおける事前学習モデルの性能向上を目的としたデータフロー埋め込み手法を提案する。具体的には,関数レベルのソースコードからデータフローグラフを解析し,DFGのノード特性として変数のデータ型を使用する。我々の研究は、DFEPTが事前訓練されたモデルに効果的な脆弱性セマンティック情報を提供し、Devignデータセットで64.97%、Revealデータセットで47.9%のF1スコアを達成できることを示している。
論文参考訳（メタデータ） (2024-10-24T07:05:07Z)
In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。 LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文参考訳（メタデータ） (2024-08-07T05:48:05Z)
Understanding Programmatic Weak Supervision via Source-aware Influence Function [76.74549130841383]
Programmatic Weak Supervision (PWS)は、複数の弱い監督ソースのソース投票を確率的トレーニングラベルに集約する。エンドモデルのトレーニング目標を分解し、各(データ、ソース、クラス)に関連する影響を計算するために、インフルエンス関数(IF)を構築します。これらのプリミティブな影響スコアは、ソース投票、監督ソース、トレーニングデータなど、個々のコンポーネントPWSの影響を推定するために使用することができる。
論文参考訳（メタデータ） (2022-05-25T15:57:24Z)
Unified Instance and Knowledge Alignment Pretraining for Aspect-based Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文参考訳（メタデータ） (2021-10-26T04:03:45Z)
Identifying Non-Control Security-Critical Data through Program Dependence Learning [9.764831771725952]
データ指向攻撃において、基本的なステップは、制御不能でセキュリティクリティカルなデータを特定することである。本稿では,従来のプログラム分析とディープラーニングを組み合わせた新しい手法を提案する。このツールチェーンは、Google FuzzBenchで80の潜在的クリティカル変数を明らかにする。
論文参考訳（メタデータ） (2021-08-27T00:28:06Z)
Federated Learning with Unreliable Clients: Performance Analysis and Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文参考訳（メタデータ） (2021-05-10T08:02:27Z)
Relate and Predict: Structure-Aware Prediction with Jointly Optimized Neural DAG [13.636680313054631]
ニューラルネットワークフレームワークdGAPを提案し、ニューラルネットワーク依存性グラフを学習し、構造認識ターゲット予測を最適化する。 dGAPは構造物の自己超越損失と目標予測損失を共同で訓練する。複数のシミュレーションデータセットと実データセットでdGAPを実証的に評価する。
論文参考訳（メタデータ） (2021-03-03T13:55:12Z)
Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文参考訳（メタデータ） (2020-10-26T04:44:43Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)
Estimating Structural Target Functions using Machine Learning and Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文参考訳（メタデータ） (2020-08-14T16:48:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。