Fugu-MT 論文翻訳(概要): Enhanced Automated Code Vulnerability Repair using Large Language Models

論文の概要: Enhanced Automated Code Vulnerability Repair using Large Language Models

arxiv url: http://arxiv.org/abs/2401.03741v1
Date: Mon, 8 Jan 2024 09:01:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 17:10:56.285449
Title: Enhanced Automated Code Vulnerability Repair using Large Language Models
Title（参考訳）: 大規模言語モデルによるコードの脆弱性修復の強化
Authors: David de-Fitero-Dominguez, Eva Garcia-Lopez, Antonio Garcia-Cabot, Jose-Javier Martinez-Herraiz
Abstract要約: この研究は、コードの脆弱性を自動修復する複雑な課題に対処する。 LLM(Advanced Large Language Models)を使用して、コード修正を表現する新しいフォーマットを導入する。 Cコードの脆弱性を特徴とするデータセットを微調整したLLMは、自動コード修復技術の正確性と適応性を大幅に向上した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This research addresses the complex challenge of automated repair of code vulnerabilities, vital for enhancing digital security in an increasingly technology-driven world. The study introduces a novel and efficient format for the representation of code modification, using advanced Large Language Models (LLMs) such as Code Llama and Mistral. These models, fine-tuned on datasets featuring C code vulnerabilities, significantly improve the accuracy and adaptability of automated code repair techniques. A key finding is the enhanced repair accuracy of these models when compared to previous methods such as VulRepair, which underscores their practical utility and efficiency. The research also offers a critical assessment of current evaluation metrics, such as perfect predictions, and their limitations in reflecting the true capabilities of automated repair models in real-world scenarios. Following this, it underscores the importance of using test datasets devoid of train samples, emphasizing the need for dataset integrity to enhance the effectiveness of LLMs in code repair tasks. The significance of this work is its contribution to digital security, setting new standards for automated code vulnerability repair and paving the way for future advancements in the fields of cybersecurity and artificial intelligence. The study does not only highlight the potential of LLMs in enhancing code security but also fosters further exploration and research in these crucial areas.
Abstract（参考訳）: この研究は、ますます技術主導の世界でデジタルセキュリティを強化する上で不可欠な、コードの脆弱性を自動修復する複雑な課題に対処する。この研究は、コードラマやMistralのような高度なLarge Language Model(LLM)を使用して、コード修正を表現するための、新しく効率的なフォーマットを紹介している。 cコードの脆弱性を特徴とするデータセットを微調整したこれらのモデルは、自動コード修正技術の正確性と適応性を大幅に改善する。重要な発見は、VulRepairのような従来の手法と比較して、これらのモデルの修復精度が向上していることである。この研究はまた、完璧な予測のような現在の評価指標に対する批判的な評価と、現実のシナリオにおける自動修復モデルの真の能力を反映する限界も提供する。これに続いて、列車のサンプルを欠いたテストデータセットの使用の重要性を強調し、コード修復タスクにおけるllmの有効性を高めるためにデータセットの完全性の必要性を強調している。この研究の意義は、デジタルセキュリティへの貢献、自動コード脆弱性修復の新しい標準の設定、サイバーセキュリティと人工知能の分野における今後の進歩への道を開くことである。この研究は、コードセキュリティ強化におけるllmの可能性を強調するだけでなく、これらの重要な領域におけるさらなる調査と研究を促進する。

関連論文リスト

Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文参考訳（メタデータ） (2026-02-07T07:42:07Z)
LLMs in Code Vulnerability Analysis: A Proof of Concept [0.3441021278275805]
従来のソフトウェアセキュリティ分析手法は、現代人の規模や複雑さに合わせたペースを維持するのに苦労している。本稿では,重要なソフトウェアセキュリティタスクを自動化するために,コード固有および汎用大規模言語モデルの導入について検討する。
論文参考訳（メタデータ） (2026-01-13T16:16:11Z)
Taught by the Flawed: How Dataset Insecurity Breeds Vulnerable AI Code [0.0]
アウトプットをセキュアにするための重要な要因は、大規模な言語モデルを構築するために使用されるトレーニングデータセットに脆弱性が存在することだ。静的解析ツールを用いて既存のPythonコーパスをフィルタリングしてセキュアなデータセットを構築し,脆弱性のない機能のみを保持する。以上の結果から,計算したデータセットでトレーニングしたモデルは,同等の機能的正しさを維持しつつ,より少ないセキュリティ問題でアウトプットを生成した。
論文参考訳（メタデータ） (2025-11-13T02:25:24Z)
Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning [50.45435841411193]
Code Language Models (CLMs)は、機密性のあるトレーニングデータの意図しない記憶を示し、具体的に指示された場合に機密情報の冗長な再現を可能にする。 CodeEraserは、コードの構造的整合性と機能的正当性を保ちながら、センシティブな記憶されたセグメントを選択的にコードに解放する高度な変種である。
論文参考訳（メタデータ） (2025-09-17T07:12:35Z)
White-Basilisk: A Hybrid Model for Code Vulnerability Detection [50.49233187721795]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。 White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文参考訳（メタデータ） (2025-07-11T12:39:25Z)
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
AKD : Adversarial Knowledge Distillation For Large Language Models Alignment on Coding tasks [4.757470449749877]
本稿では, 大規模モデルの能力を, より小さく, より効率的なものに蒸留するために, AKD (Adversarial Knowledge Distillation) を導入する。 AKDはモデルの堅牢性、信頼性、セキュリティを向上し、パラメータ効率を向上させるためのフレームワークを提供する。
論文参考訳（メタデータ） (2025-05-05T22:41:19Z)
Improving Automated Secure Code Reviews: A Synthetic Dataset for Code Vulnerability Flaws [0.0]
本稿では,セキュリティ欠陥について特にコメントする脆弱性中心のレビューからなる合成データセットの作成を提案する。弊社のアプローチでは,Large Language Models(LLMs)を利用して,脆弱性に対する人間的なコードレビューコメントを生成する。
論文参考訳（メタデータ） (2025-04-22T23:07:24Z)
Evaluating Pre-Trained Models for Multi-Language Vulnerability Patching [3.220818227251765]
本稿では,事前学習型言語モデルであるCodeBERTとCodeT5の脆弱性パッチ自動適用の可能性について検討する。これらのモデルの精度、計算効率、脆弱性のあるコードパッチの長さがパフォーマンスに与える影響について評価する。
論文参考訳（メタデータ） (2025-01-13T13:51:05Z)
CRepair: CVAE-based Automatic Vulnerability Repair Technology [1.147605955490786]
ソフトウェア脆弱性は、現代のソフトウェアとそのアプリケーションデータの完全性、セキュリティ、信頼性に重大な脅威をもたらす。脆弱性修復の課題に対処するため、研究者らは、学習に基づく自動脆弱性修復技術が広く注目を集めるなど、様々な解決策を提案している。本稿では,システムコードのセキュリティ脆弱性を修正することを目的としたCVAEベースの自動脆弱性修復技術であるCRepairを提案する。
論文参考訳（メタデータ） (2024-11-08T12:55:04Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文参考訳（メタデータ） (2024-08-29T10:00:57Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
SCoPE: Evaluating LLMs for Software Vulnerability Detection [0.0]
この研究は、コード関連タスクのモデルをトレーニングするために一般的に使用されるCVEFixesデータセットを調査し、洗練する。 SCoPEが生成した出力はCVEFixesの新バージョンを作成するために使われた。その結果,SCoPEは評価されたサブセット内の905個の複製の同定に有効であった。
論文参考訳（メタデータ） (2024-07-19T15:02:00Z)
Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文参考訳（メタデータ） (2024-06-24T15:45:22Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (2024-03-23T09:26:15Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Enabling Automatic Repair of Source Code Vulnerabilities Using Data-Driven Methods [0.4568777157687961]
3つの観点から脆弱性修復のためのコード表現を改善する方法を提案する。データ駆動型の自動プログラム修復モデルは、バグと修正されたコードのペアを使用して、コードのエラーを修正する変換を学習する。この作業の期待される結果は、自動プログラム修正のためのコード表現の改善、特にセキュリティ脆弱性の修正である。
論文参考訳（メタデータ） (2022-02-07T10:47:37Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。