Fugu-MT 論文翻訳(概要): On the Effectiveness of Instruction-Tuning Local LLMs for Identifying Software Vulnerabilities

論文の概要: On the Effectiveness of Instruction-Tuning Local LLMs for Identifying Software Vulnerabilities

arxiv url: http://arxiv.org/abs/2512.20062v1
Date: Tue, 23 Dec 2025 05:30:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-24 19:17:49.759851
Title: On the Effectiveness of Instruction-Tuning Local LLMs for Identifying Software Vulnerabilities
Title（参考訳）: ソフトウェア脆弱性の特定のための指導学習ローカルLLMの有効性について
Authors: Sangryu Park, Gihyuk Ko, Homook Cho,
Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア脆弱性分析の自動化において大きな可能性を秘めている。脆弱性分析を自動化するためにLLMを使用する現在のアプローチは、主にオンラインAPIベースのLLMサービスに頼っている。本稿では,この問題をソフトウェア脆弱性同定(SVI)として再検討することによって,これらの制約に対処する。実世界の脆弱性管理においてLLMをより効果的でセキュアで実践的なアプローチを示す。
参考スコア（独自算出の注目度）: 0.7136933021609079
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) show significant promise in automating software vulnerability analysis, a critical task given the impact of security failure of modern software systems. However, current approaches in using LLMs to automate vulnerability analysis mostly rely on using online API-based LLM services, requiring the user to disclose the source code in development. Moreover, they predominantly frame the task as a binary classification(vulnerable or not vulnerable), limiting potential practical utility. This paper addresses these limitations by reformulating the problem as Software Vulnerability Identification (SVI), where LLMs are asked to output the type of weakness in Common Weakness Enumeration (CWE) IDs rather than simply indicating the presence or absence of a vulnerability. We also tackle the reliance on large, API-based LLMs by demonstrating that instruction-tuning smaller, locally deployable LLMs can achieve superior identification performance. In our analysis, instruct-tuning a local LLM showed better overall performance and cost trade-off than online API-based LLMs. Our findings indicate that instruct-tuned local models represent a more effective, secure, and practical approach for leveraging LLMs in real-world vulnerability management workflows.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ソフトウェア脆弱性分析の自動化において大きな可能性を秘めている。しかしながら、脆弱性分析を自動化するためにLLMを使用する現在のアプローチは、主にオンラインAPIベースのLLMサービスを使用することに依存しており、ユーザが開発中のソースコードを開示する必要がある。さらに、彼らは主にタスクをバイナリ分類(脆弱性があるかないか)としてフレーム化し、潜在的な実用性を制限する。本稿では,ソフトウェア脆弱性識別(Software Vulnerability Identification, SVI)として,LLMが脆弱性の有無を単に示すのではなく,共通弱度列挙(Common Weakness Enumeration, CWE)IDの弱さのタイプを出力するよう求めている。また,より小型で,ローカルにデプロイ可能なLLMがより優れた識別性能が得られることを示すことにより,大規模APIベースのLLMへの依存に対処する。本分析では,ローカルLLMのインストラクションチューニングにより,オンラインAPIベースのLLMよりも全体的な性能とコストトレードオフが向上した。本研究は,実世界の脆弱性管理ワークフローにおいて,LLMをより効果的かつセキュアかつ実践的なアプローチで活用できることを示唆する。

関連論文リスト

Evaluating LLMs for One-Shot Patching of Real and Artificial Vulnerabilities [2.5190317156807924]
いくつかの著名な大規模言語モデル(LLM)のパッチの有効性と相補性を実証的に評価する。以上の結果から,LLMは人工的な脆弱性よりも,実際の脆弱性を効果的にパッチすることが明らかとなった。重なり合い(複数のLLMが同一の脆弱性にパッチを当てている)と相補性の観点から,LLM間の大きなばらつきを明らかにした。
論文参考訳（メタデータ） (2025-11-28T18:03:47Z)
Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文参考訳（メタデータ） (2025-02-12T17:19:36Z)
From Vulnerabilities to Remediation: A Systematic Literature Review of LLMs in Code Security [0.0]
大規模言語モデル(LLM)は、様々なプログラミングタスクを自動化する強力なツールとして登場した。 LLMはプログラマが知らない脆弱性を導入する可能性がある。コードを解析する際には、明確な脆弱性を見逃したり、存在しない脆弱性を通知する可能性がある。
論文参考訳（メタデータ） (2024-12-19T16:20:22Z)
VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文参考訳（メタデータ） (2024-09-16T22:00:20Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study [1.03590082373586]
ソースコードの脆弱性発見を支援するために,大規模言語モデル(LLM)を提案する。目的は、複数の最先端のLCMをテストし、最も優れたプロンプト戦略を特定することである。 LLMは従来の静的解析ツールよりも多くの問題を特定でき、リコールやF1スコアの点で従来のツールよりも優れています。
論文参考訳（メタデータ） (2024-05-24T14:59:19Z)
Multitask-based Evaluation of Open-Source LLM on Software Vulnerability [2.7692028382314815]
本稿では,公開データセットを用いて対話型大規模言語モデル(LLM)を定量的に評価するためのパイプラインを提案する。我々は,4つの共通ソフトウェア脆弱性タスクをカバーするBig-Vulを用いて,LLMの広範な技術的評価を行う。既存の最先端のアプローチと事前訓練された言語モデル(LM)は、ソフトウェア脆弱性検出において、LLMよりも一般的に優れていることがわかった。
論文参考訳（メタデータ） (2024-04-02T15:52:05Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。