論文の概要: Expert-in-the-Loop Systems with Cross-Domain and In-Domain Few-Shot Learning for Software Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2506.10104v1
- Date: Wed, 11 Jun 2025 18:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.39632
- Title: Expert-in-the-Loop Systems with Cross-Domain and In-Domain Few-Shot Learning for Software Vulnerability Detection
- Title(参考訳): ソフトウェア脆弱性検出のためのクロスドメインおよびインドメインFew-Shot学習を用いたエキスパート・イン・ザ・ループシステム
- Authors: David Farr, Kevin Talty, Alexandra Farr, John Stockdale, Iain Cruickshank, Jevin West,
- Abstract要約: 本研究では,CWE(Common Weaknessions)を用いたPythonコードの識別をシミュレーションすることにより,ソフトウェア脆弱性評価におけるLLM(Large Language Models)の利用について検討する。
その結果,ゼロショットプロンプトは性能が低いが,少数ショットプロンプトは分類性能を著しく向上させることがわかった。
モデル信頼性、解釈可能性、敵の堅牢性といった課題は、将来の研究にとって重要な領域のままである。
- 参考スコア(独自算出の注目度): 38.083049237330826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As cyber threats become more sophisticated, rapid and accurate vulnerability detection is essential for maintaining secure systems. This study explores the use of Large Language Models (LLMs) in software vulnerability assessment by simulating the identification of Python code with known Common Weakness Enumerations (CWEs), comparing zero-shot, few-shot cross-domain, and few-shot in-domain prompting strategies. Our results indicate that while zero-shot prompting performs poorly, few-shot prompting significantly enhances classification performance, particularly when integrated with confidence-based routing strategies that improve efficiency by directing human experts to cases where model uncertainty is high, optimizing the balance between automation and expert oversight. We find that LLMs can effectively generalize across vulnerability categories with minimal examples, suggesting their potential as scalable, adaptable cybersecurity tools in simulated environments. However, challenges such as model reliability, interpretability, and adversarial robustness remain critical areas for future research. By integrating AI-driven approaches with expert-in-the-loop (EITL) decision-making, this work highlights a pathway toward more efficient and responsive cybersecurity workflows. Our findings provide a foundation for deploying AI-assisted vulnerability detection systems in both real and simulated environments that enhance operational resilience while reducing the burden on human analysts.
- Abstract(参考訳): サイバー脅威がより高度化するにつれ、安全システムを維持するためには、迅速かつ正確な脆弱性検出が不可欠である。
本研究では、ソフトウェア脆弱性評価におけるLarge Language Models (LLMs) の使用について、既知のCommon Weakness Enumerations (CWEs)によるPythonコードの識別をシミュレートし、ゼロショット、少数ショットのクロスドメイン、少数ショットのインドメインプロンプト戦略を比較した。
以上の結果から,ゼロショットのプロンプトが不十分な場合,特に信頼性に基づくルーティング戦略と統合された場合,モデル不確実性が高い場合,自動化と専門家の監視のバランスを最適化することで,効率を向上できる可能性が示唆された。
LLMは、最小限の例で脆弱性カテゴリを効果的に一般化することができ、シミュレートされた環境でスケーラブルで適応可能なサイバーセキュリティツールとしての可能性を示している。
しかし、モデル信頼性、解釈可能性、敵の堅牢性といった課題は、今後の研究にとって重要な領域である。
AI駆動のアプローチとエキスパート・イン・ザ・ループ(EITL)による意思決定を統合することで、この作業はより効率的でレスポンシブなサイバーセキュリティワークフローへの道のりを強調している。
我々の研究は、人間アナリストの負担を軽減しつつ、運用のレジリエンスを高める実環境とシミュレーション環境の両方にAI支援の脆弱性検出システムをデプロイする基盤を提供する。
関連論文リスト
- LLMpatronous: Harnessing the Power of LLMs For Vulnerability Detection [0.0]
脆弱性検出のための大規模言語モデル(LLM)には、ユニークな課題がある。
脆弱性検出に機械学習モデルを使用した以前の試みは、効果がないことが証明されている。
我々は、これらの制限を緩和することに焦点を当てた、堅牢なAI駆動アプローチを提案する。
論文 参考訳(メタデータ) (2025-04-25T15:30:40Z) - Beyond the Surface: An NLP-based Methodology to Automatically Estimate CVE Relevance for CAPEC Attack Patterns [42.63501759921809]
本稿では,自然言語処理(NLP)を利用して,共通脆弱性・暴露(CAPEC)脆弱性と共通攻撃パターン・分類(CAPEC)攻撃パターンを関連付ける手法を提案する。
実験による評価は,最先端モデルと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-01-13T08:39:52Z) - Bringing Order Amidst Chaos: On the Role of Artificial Intelligence in Secure Software Engineering [0.0]
進化を続ける技術的景観は、機会と脅威の両方を提供し、カオスと秩序が競合する動的な空間を作り出す。
セキュアなソフトウェアエンジニアリング(SSE)は、ソフトウェアシステムを危険にさらす脆弱性に継続的に対処しなければならない。
この論文は、AIの精度に影響を与えるドメイン固有の違いに対処することで、SSEのカオスに秩序をもたらすことを目指している。
論文 参考訳(メタデータ) (2025-01-09T11:38:58Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - BreachSeek: A Multi-Agent Automated Penetration Tester [0.0]
BreachSeekはAI駆動のマルチエージェントソフトウェアプラットフォームで、人間の介入なしに脆弱性を特定し、悪用する。
予備評価では、BreachSeekはローカルネットワーク内の悪用可能なマシンの脆弱性をうまく利用した。
今後の開発は、その能力を拡大し、サイバーセキュリティの専門家にとって欠かせないツールとして位置づけることを目指している。
論文 参考訳(メタデータ) (2024-08-31T19:15:38Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - PenHeal: A Two-Stage LLM Framework for Automated Pentesting and Optimal Remediation [18.432274815853116]
PenHealは2段階のLSMベースのフレームワークで、自律的に脆弱性を特定してセキュリティを確保する。
本稿では,LLMベースの2段階フレームワークであるPenHealについて紹介する。
論文 参考訳(メタデータ) (2024-07-25T05:42:14Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2021-01-28T16:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。