Fugu-MT 論文翻訳(概要): Evaluating LLMs for One-Shot Patching of Real and Artificial Vulnerabilities

論文の概要: Evaluating LLMs for One-Shot Patching of Real and Artificial Vulnerabilities

arxiv url: http://arxiv.org/abs/2511.23408v1
Date: Fri, 28 Nov 2025 18:03:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-01 19:47:56.015576
Title: Evaluating LLMs for One-Shot Patching of Real and Artificial Vulnerabilities
Title（参考訳）: 実・人工脆弱性のワンショットパッチングのためのLCMの評価
Authors: Aayush Garg, Zanis Ali Khan, Renzo Degiovanni, Qiang Tang,
Abstract要約: いくつかの著名な大規模言語モデル(LLM)のパッチの有効性と相補性を実証的に評価する。以上の結果から,LLMは人工的な脆弱性よりも,実際の脆弱性を効果的にパッチすることが明らかとなった。重なり合い(複数のLLMが同一の脆弱性にパッチを当てている)と相補性の観点から,LLM間の大きなばらつきを明らかにした。
参考スコア（独自算出の注目度）: 2.5190317156807924
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated vulnerability patching is crucial for software security, and recent advancements in Large Language Models (LLMs) present promising capabilities for automating this task. However, existing research has primarily assessed LLMs using publicly disclosed vulnerabilities, leaving their effectiveness on related artificial vulnerabilities largely unexplored. In this study, we empirically evaluate the patching effectiveness and complementarity of several prominent LLMs, such as OpenAI's GPT variants, LLaMA, DeepSeek, and Mistral models, using both real and artificial vulnerabilities. Our evaluation employs Proof-of-Vulnerability (PoV) test execution to concretely assess whether LLM-generated source code successfully patches vulnerabilities. Our results reveal that LLMs patch real vulnerabilities more effectively compared to artificial ones. Additionally, our analysis reveals significant variability across LLMs in terms of overlapping (multiple LLMs patching the same vulnerabilities) and complementarity (vulnerabilities patched exclusively by a single LLM), emphasizing the importance of selecting appropriate LLMs for effective vulnerability patching.
Abstract（参考訳）: 脆弱性の自動パッチはソフトウェアセキュリティにとって不可欠であり、近年のLarge Language Models(LLMs)の進歩は、このタスクを自動化するための有望な機能を示している。しかし、既存の研究はLLMを公開の脆弱性を使って評価し、関連する人工的な脆弱性に対するその効果は未調査のままである。本研究では,OpenAI の GPT 変種,LLaMA,DeepSeek,Mistral モデルなど,いくつかの著名な LLM のパッチの有効性と相補性を実・人工の脆弱性を用いて実証的に評価した。我々の評価では、LLM生成ソースコードが脆弱性のパッチを成功させるかどうかを具体的に評価するために、Proof-of-Vulnerability (PoV)テスト実行を採用している。以上の結果から,LLMは人工的な脆弱性よりも,実際の脆弱性を効果的にパッチすることが明らかとなった。さらに,重なり合い(同一の脆弱性にパッチを当てる複数のLLM)と相補性(単一のLLMにのみパッチを当てる脆弱性)の面で,LLM間の大きなばらつきが明らかとなり,有効な脆弱性パッチに適切なLLMを選択することの重要性が強調された。

関連論文リスト

On the Effectiveness of Instruction-Tuning Local LLMs for Identifying Software Vulnerabilities [0.7136933021609079]
大規模言語モデル(LLM)は、ソフトウェア脆弱性分析の自動化において大きな可能性を秘めている。脆弱性分析を自動化するためにLLMを使用する現在のアプローチは、主にオンラインAPIベースのLLMサービスに頼っている。本稿では,この問題をソフトウェア脆弱性同定(SVI)として再検討することによって,これらの制約に対処する。実世界の脆弱性管理においてLLMをより効果的でセキュアで実践的なアプローチを示す。
論文参考訳（メタデータ） (2025-12-23T05:30:53Z)
From LLMs to Agents: A Comparative Evaluation of LLMs and LLM-based Agents in Security Patch Detection [42.089851895083804]
大規模言語モデル(LLM)とLLMベースのエージェントは、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示した。セキュリティパッチ検出のための LLM および LLM ベースのエージェントの性能を総合的に評価する。以上の結果から,Data-Aug LLMは最高の総合成績を示し,ReAct Agentは最も低い偽陽性率(FPR)を示した。
論文参考訳（メタデータ） (2025-11-11T09:58:41Z)
Guiding AI to Fix Its Own Flaws: An Empirical Study on LLM-Driven Secure Code Generation [16.29310628754089]
大規模言語モデル(LLM)は、コードの自動生成のための強力なツールになっている。 LLMは、しばしば重要なセキュリティプラクティスを見落とし、安全でないコードを生成する。本稿では、安全性の低いコードを生成するための固有の傾向、自己生成する脆弱性ヒントによってガイドされた場合にセキュアなコードを生成する能力、フィードバックレベルが異なる場合に脆弱性を修復する効果について検討する。
論文参考訳（メタデータ） (2025-06-28T23:24:33Z)
VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文参考訳（メタデータ） (2024-09-16T22:00:20Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。 7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文参考訳（メタデータ） (2024-04-24T23:39:58Z)
Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T09:46:25Z)
Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文参考訳（メタデータ） (2024-04-05T20:31:45Z)
Multitask-based Evaluation of Open-Source LLM on Software Vulnerability [2.7692028382314815]
本稿では,公開データセットを用いて対話型大規模言語モデル(LLM)を定量的に評価するためのパイプラインを提案する。我々は,4つの共通ソフトウェア脆弱性タスクをカバーするBig-Vulを用いて,LLMの広範な技術的評価を行う。既存の最先端のアプローチと事前訓練された言語モデル(LM)は、ソフトウェア脆弱性検出において、LLMよりも一般的に優れていることがわかった。
論文参考訳（メタデータ） (2024-04-02T15:52:05Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。