論文の概要: Using LLMs for Security Advisory Investigations: How Far Are We?
- arxiv url: http://arxiv.org/abs/2506.13161v1
- Date: Mon, 16 Jun 2025 07:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.681227
- Title: Using LLMs for Security Advisory Investigations: How Far Are We?
- Title(参考訳): セキュリティアドバイザリ調査にLLMを使う - どこまであるのか?
- Authors: Bayu Fedra Abdullah, Yusuf Sulistyo Nugroho, Brittany Reid, Raula Gaikovina Kula, Kazumasa Shimari, Kenichi Matsumoto,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェアセキュリティにおいてますます使われているが、正確な脆弱性アドバイザリを生成する上での信頼性は、いまだに不確実である。
本研究では,(1)CVE-IDから有効なセキュリティアドバイザリを生成し,(2)偽CVE-IDと現実を区別し,(3)CVE-IDをアドバイザリ記述から抽出する能力について検討する。
- 参考スコア(独自算出の注目度): 2.916588882952662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used in software security, but their trustworthiness in generating accurate vulnerability advisories remains uncertain. This study investigates the ability of ChatGPT to (1) generate plausible security advisories from CVE-IDs, (2) differentiate real from fake CVE-IDs, and (3) extract CVE-IDs from advisory descriptions. Using a curated dataset of 100 real and 100 fake CVE-IDs, we manually analyzed the credibility and consistency of the model's outputs. The results show that ChatGPT generated plausible security advisories for 96% of given input real CVE-IDs and 97% of given input fake CVE-IDs, demonstrating a limitation in differentiating between real and fake IDs. Furthermore, when these generated advisories were reintroduced to ChatGPT to identify their original CVE-ID, the model produced a fake CVE-ID in 6% of cases from real advisories. These findings highlight both the strengths and limitations of ChatGPT in cybersecurity applications. While the model demonstrates potential for automating advisory generation, its inability to reliably authenticate CVE-IDs or maintain consistency upon re-evaluation underscores the risks associated with its deployment in critical security tasks. Our study emphasizes the importance of using LLMs with caution in cybersecurity workflows and suggests the need for further improvements in their design to improve reliability and applicability in security advisory generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェアセキュリティにおいてますます使われているが、正確な脆弱性アドバイザリを生成する上での信頼性は、いまだに不確実である。
本研究では,(1)CVE-IDから有効なセキュリティアドバイザリを生成し,(2)偽CVE-IDと現実を区別し,(3)CVE-IDをアドバイザリ記述から抽出する能力について検討する。
100個の実物と100個の偽のCVE-IDのキュレートされたデータセットを用いて、モデルの出力の信頼性と一貫性を手動で分析した。
以上の結果から,ChatGPTは入力された実CVE-IDの96%,入力された偽CVE-IDの97%に対して有望なセキュリティアドバイザリーを生成し,実IDと偽IDの区別の限界を示した。
さらに、生成されたアドバイザリが元のCVE-IDを特定するためにChatGPTに再導入されると、モデルは実際のアドバイザリから6%のケースで偽CVE-IDを生成した。
これらの結果は、サイバーセキュリティアプリケーションにおけるChatGPTの長所と短所の両方を浮き彫りにした。
このモデルはアドバイザリ生成の自動化の可能性を示しているが、CVE-IDを確実に認証したり、再評価時に一貫性を維持することができないことは、重要なセキュリティタスクへの展開に関連するリスクを裏付けるものである。
本研究は、サイバーセキュリティワークフローに注意を払ってLSMを使用することの重要性を強調し、セキュリティアドバイザリ生成の信頼性と適用性を改善するための設計の改善の必要性を示唆する。
関連論文リスト
- Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文 参考訳(メタデータ) (2025-03-30T13:26:00Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
検索強化生成(RAG)と統合された大規模言語モデル(LLM)は,外部証拠のアウトプットを基礎として事実性を向上した。
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制し,獲得した知識に向けてモデルを校正することにより,文脈的忠実度を向上させるフレームワークであるFFN Suppression (ParamMute) によるパラメトリック知識ミューティングを提案する。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - Streamlining Security Vulnerability Triage with Large Language Models [0.786186571320448]
セキュリティバグの共通弱さ(CWE)の同定を自動化し,その重症度を評価する新しいアプローチであるCASEYを提案する。
ケーシーはCWE識別精度68%、重度識別精度73.6%、組み合わせ精度51.2%を達成した。
論文 参考訳(メタデータ) (2025-01-31T06:02:24Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - Trust, but Verify: Evaluating Developer Behavior in Mitigating Security Vulnerabilities in Open-Source Software Projects [0.11999555634662631]
本研究では,オープンソースソフトウェア(OSS)プロジェクトの依存関係の脆弱性について検討する。
古い依存関係やメンテナンスされていない依存関係に共通する問題を特定しました。
その結果, 直接的な依存関係の削減と, 強力なセキュリティ記録を持つ高度に確立されたライブラリの優先順位付けが, ソフトウェアセキュリティの状況を改善する効果的な戦略であることが示唆された。
論文 参考訳(メタデータ) (2024-08-26T13:46:48Z) - Cybersecurity Defenses: Exploration of CVE Types through Attack Descriptions [1.0474508494260908]
VULDATは、文変換器MPNETを使用して、攻撃記述からシステムの脆弱性を識別する分類ツールである。
また,ATT&CKレポジトリから100件,CVEレポジトリから685件のアタック手法を適用した。
以上の結果より,F1スコア0.85,精度0.86,リコール0.83,F1スコア0.83,F1スコア0.85,F1スコア0.86,F1スコア0.83,F1スコア0。
論文 参考訳(メタデータ) (2024-07-09T11:08:35Z) - Automated CVE Analysis for Threat Prioritization and Impact Prediction [4.540236408836132]
CVE分析と脅威優先順位付けに革命をもたらす新しい予測モデルとツール(CVEDrill)を導入する。
CVEDrillは、正確な脅威軽減と優先順位付けのために、CVSSベクターを正確に推定する。
CVEを適切なCommon Weaknession(CWE)階層クラスにシームレスに分類する。
論文 参考訳(メタデータ) (2023-09-06T14:34:03Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。