Fugu-MT 論文翻訳(概要): Evaluating Pre-Trained Models for Multi-Language Vulnerability Patching

論文の概要: Evaluating Pre-Trained Models for Multi-Language Vulnerability Patching

arxiv url: http://arxiv.org/abs/2501.07339v1
Date: Mon, 13 Jan 2025 13:51:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 19:20:14.140345
Title: Evaluating Pre-Trained Models for Multi-Language Vulnerability Patching
Title（参考訳）: マルチランゲージ脆弱性パッチングのための事前学習モデルの評価
Authors: Zanis Ali Khan, Aayush Garg, Yuejun Guo, Qiang Tang,
Abstract要約: 本稿では,事前学習型言語モデルであるCodeBERTとCodeT5の脆弱性パッチ自動適用の可能性について検討する。これらのモデルの精度、計算効率、脆弱性のあるコードパッチの長さがパフォーマンスに与える影響について評価する。
参考スコア（独自算出の注目度）: 3.220818227251765
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software vulnerabilities pose critical security risks, demanding prompt and effective mitigation strategies. While advancements in Automated Program Repair (APR) have primarily targeted general software bugs, the domain of vulnerability patching, which is a security-critical subset of APR, remains underexplored. This paper investigates the potential of pre-trained language models, CodeBERT and CodeT5, for automated vulnerability patching across diverse datasets and five programming languages. We evaluate these models on their accuracy, computational efficiency, and how the length of vulnerable code patches impacts performance. Our findings reveal promising accuracy levels, particularly for CodeT5 on datasets with complex vulnerability patterns, while CodeBERT demonstrates strengths in handling fragmented or context-limited datasets. CodeT5 further showcases superior efficiency, making it well-suited for large-scale applications. However, both models face challenges in maintaining performance as patch length increases, highlighting the complexity of addressing extended in program repair specifically aimed at fixing vulnerabilities. This study benchmarks model performance, highlights key limitations, and offers insights to improve automated vulnerability patching for practical security applications.
Abstract（参考訳）: ソフトウェア脆弱性は、緊急かつ効果的な緩和戦略を要求する、重大なセキュリティリスクを引き起こす。自動プログラム修復(APR)の進歩は、主に一般的なソフトウェアバグをターゲットにしているが、脆弱性パッチのドメインは、APRのセキュリティクリティカルなサブセットである。本稿では、さまざまなデータセットと5つのプログラミング言語にまたがる自動脆弱性パッチに対する、事前訓練済みの言語モデルであるCodeBERTとCodeT5の可能性について検討する。これらのモデルの精度、計算効率、脆弱性のあるコードパッチの長さがパフォーマンスに与える影響について評価する。以上の結果から,特に複雑な脆弱性パターンを持つデータセット上でのCodeT5では,有望な精度レベルが明らかとなった。 CodeT5はさらに優れた効率性を示し、大規模アプリケーションに適している。しかし、どちらのモデルもパッチの長さが増加するにつれてパフォーマンスを維持することの難しさに直面しており、特に脆弱性の修正を目的としたプログラム修復に対処する際の複雑さを強調している。この研究は、モデルパフォーマンスをベンチマークし、重要な制限を強調し、実用的なセキュリティアプリケーションのための自動脆弱性パッチを改善するための洞察を提供する。

関連論文リスト

Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。 SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。 SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文参考訳（メタデータ） (2025-07-29T17:39:48Z)
White-Basilisk: A Hybrid Model for Code Vulnerability Detection [50.49233187721795]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。 White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文参考訳（メタデータ） (2025-07-11T12:39:25Z)
Boosting Vulnerability Detection of LLMs via Curriculum Preference Optimization with Synthetic Reasoning Data [22.557961978833386]
本稿では,脆弱性パターンのマイニングに優れた大規模言語モデル(LLM)の新たなフレームワークを提案する。具体的には、脆弱性と対応する固定コードに対する前方および後方の推論プロセスを構築し、高品質な推論データの合成を保証する。 ReVD は LLM ベースのソフトウェア脆弱性検出のための新たな最先端技術,例えば 12.24%-22.77% の精度向上を実現している。
論文参考訳（メタデータ） (2025-06-09T03:25:23Z)
A Multi-Dataset Evaluation of Models for Automated Vulnerability Repair [2.7674959824386858]
本研究では、6つのデータセットと4つの言語にまたがる自動脆弱性パッチのための事前訓練された言語モデルであるCodeBERTとCodeT5について検討する。それらの精度と一般化を未知の脆弱性に対して評価する。結果は、両方のモデルが断片化やスパースなコンテキストで課題に直面しているのに対して、CodeBERTはそのようなシナリオでは比較的優れたパフォーマンスを示し、CodeT5は複雑な脆弱性パターンのキャプチャに優れていることを示している。
論文参考訳（メタデータ） (2025-06-05T13:00:19Z)
CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文参考訳（メタデータ） (2025-06-03T07:35:14Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文参考訳（メタデータ） (2025-02-18T17:12:26Z)
Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文参考訳（メタデータ） (2025-02-03T18:43:36Z)
Beyond the Surface: An NLP-based Methodology to Automatically Estimate CVE Relevance for CAPEC Attack Patterns [42.63501759921809]
本稿では,自然言語処理(NLP)を利用して,共通脆弱性・暴露(CAPEC)脆弱性と共通攻撃パターン・分類(CAPEC)攻撃パターンを関連付ける手法を提案する。実験による評価は,最先端モデルと比較して優れた性能を示した。
論文参考訳（メタデータ） (2025-01-13T08:39:52Z)
CRepair: CVAE-based Automatic Vulnerability Repair Technology [1.147605955490786]
ソフトウェア脆弱性は、現代のソフトウェアとそのアプリケーションデータの完全性、セキュリティ、信頼性に重大な脅威をもたらす。脆弱性修復の課題に対処するため、研究者らは、学習に基づく自動脆弱性修復技術が広く注目を集めるなど、様々な解決策を提案している。本稿では,システムコードのセキュリティ脆弱性を修正することを目的としたCVAEベースの自動脆弱性修復技術であるCRepairを提案する。
論文参考訳（メタデータ） (2024-11-08T12:55:04Z)
Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文参考訳（メタデータ） (2024-08-29T10:00:57Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes [40.401211102969356]
本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
論文参考訳（メタデータ） (2023-09-15T02:50:08Z)
OutCenTR: A novel semi-supervised framework for predicting exploits of vulnerabilities in high-dimensional datasets [0.0]
私たちは、悪用される可能性のある脆弱性を予測するために、外れ値検出技術を使用しています。本稿では,ベースライン外乱検出モデルを強化する次元削減手法であるOutCenTRを提案する。実験の結果,F1スコアの5倍の精度向上が得られた。
論文参考訳（メタデータ） (2023-04-03T00:34:41Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。