Fugu-MT 論文翻訳(概要): How the Training Procedure Impacts the Performance of Deep Learning-based Vulnerability Patching

論文の概要: How the Training Procedure Impacts the Performance of Deep Learning-based Vulnerability Patching

arxiv url: http://arxiv.org/abs/2404.17896v1
Date: Sat, 27 Apr 2024 13:08:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 18:41:58.361562
Title: How the Training Procedure Impacts the Performance of Deep Learning-based Vulnerability Patching
Title（参考訳）: 深層学習に基づく脆弱性パッチングの学習方法がパフォーマンスに与える影響
Authors: Antonio Mastropaolo, Vittoria Nardone, Gabriele Bavota, Massimiliano Di Penta,
Abstract要約: 本稿では、脆弱性パッチ作成のための自己教師付きおよび教師付き事前訓練の既存のソリューションを比較した。データ収集のコストは高いが、DLベースの脆弱性パッチングを大幅に改善することを発見した。この教師付き事前訓練モデルの上にプロンプトチューニングを適用すると、性能が著しく向上することはない。
参考スコア（独自算出の注目度）: 14.794452134569475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative deep learning (DL) models have been successfully adopted for vulnerability patching. However, such models require the availability of a large dataset of patches to learn from. To overcome this issue, researchers have proposed to start from models pre-trained with general knowledge, either on the programming language or on similar tasks such as bug fixing. Despite the efforts in the area of automated vulnerability patching, there is a lack of systematic studies on how these different training procedures impact the performance of DL models for such a task. This paper provides a manyfold contribution to bridge this gap, by (i) comparing existing solutions of self-supervised and supervised pre-training for vulnerability patching; and (ii) for the first time, experimenting with different kinds of prompt-tuning for this task. The study required to train/test 23 DL models. We found that a supervised pre-training focused on bug-fixing, while expensive in terms of data collection, substantially improves DL-based vulnerability patching. When applying prompt-tuning on top of this supervised pre-trained model, there is no significant gain in performance. Instead, prompt-tuning is an effective and cheap solution to substantially boost the performance of self-supervised pre-trained models, i.e., those not relying on the bug-fixing pre-training.
Abstract（参考訳）: ジェネレーティブディープラーニング(DL)モデルは、脆弱性パッチの適用に成功している。しかしながら、そのようなモデルでは、そこから学ぶために、大量のパッチデータセットが利用可能である必要がある。この問題を克服するために、研究者は、プログラミング言語やバグ修正のような同様のタスクにおいて、一般的な知識で事前訓練されたモデルから始めることを提案した。自動脆弱性パッチの分野での取り組みにもかかわらず、これらの異なるトレーニング手順が、そのようなタスクに対するDLモデルのパフォーマンスに与える影響について、体系的な研究が不足している。本論文は,このギャップを橋渡しするための多面的な貢献について述べる。一脆弱性のパッチングのための自己監督及び監督事前訓練の既存のソリューションの比較 (二) 初めて、このタスクのために様々な種類のプロンプトチューニングを実験する。この研究は23のDLモデルを訓練/試験する必要があった。データ収集のコストは高いが、DLベースの脆弱性パッチングを大幅に改善することを発見した。この教師付き事前訓練モデルの上にプロンプトチューニングを適用すると、性能が著しく向上することはない。代わりに、プロンプトチューニングは、自己教師付き事前訓練されたモデル、すなわちバグ修正事前訓練に依存しないモデルの性能を大幅に向上させる、効果的で安価なソリューションである。

関連論文リスト

S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing [21.52641337754884]
ある種の敵攻撃は、トレーニングデータセットを汚染することで、機械学習モデルの振る舞いを操作できる。 EDTモデル, textbfEfficient, textbfData-free, textbfTraining-free バックドアアタック手法を導入する。モデル編集技術にインスパイアされたEDTは、編集ベースの軽量コードブックを、大規模な事前訓練されたモデルのバックドアに注入する。
論文参考訳（メタデータ） (2024-10-23T20:32:14Z)
Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。 SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文参考訳（メタデータ） (2024-09-19T17:16:21Z)
SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文参考訳（メタデータ） (2024-07-23T20:34:23Z)
Controlling Forgetting with Test-Time Data in Continual Learning [15.455400390299593]
継続学習研究は、新しい知識が得られたときの過去の情報の破滅的な忘れを克服する技術を提供する。テストタイムデータには,従来の学習タスクのモデルメモリをリフレッシュするために,自己管理的な方法で活用できる優れた情報がある,と我々は主張する。
論文参考訳（メタデータ） (2024-06-19T15:56:21Z)
DLAP: A Deep Learning Augmented Large Language Model Prompting Framework for Software Vulnerability Detection [12.686480870065827]
本稿では,ディープラーニング(DL)モデルとLLM(Large Language Models)モデルの両方を最大限に組み合わせて,例外的な脆弱性検出性能を実現するフレームワークである textbfDLAP について述べる。実験の結果、DLAPは、ロールベースのプロンプト、補助情報プロンプト、チェーン・オブ・シントプロンプト、コンテキスト内学習プロンプトなど、最先端のプロンプトフレームワークより優れていることが確認された。
論文参考訳（メタデータ） (2024-05-02T11:44:52Z)
Learn from the Past: A Proxy Guided Adversarial Defense Framework with Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。 AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文参考訳（メタデータ） (2023-10-19T13:13:41Z)
PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文参考訳（メタデータ） (2023-09-13T17:55:11Z)
Pre-trained Model-based Automated Software Vulnerability Repair: How Far are We? [14.741742268621403]
プレトレーニングモデルの予測精度は32.94%44.96%で、最先端技術であるVRepairを一貫して上回っていることを示す。驚くべきことに、転送学習を採用する単純なアプローチは、事前訓練されたモデルの予測精度を平均9.40%向上させる。我々の研究は、現実世界の脆弱性にパッチを当てるためにトレーニング済みのモデルを採用するという将来性を強調している。
論文参考訳（メタデータ） (2023-08-24T03:43:10Z)
Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文参考訳（メタデータ） (2023-06-26T17:53:05Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)
Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文参考訳（メタデータ） (2021-05-06T14:12:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。