論文の概要: Insights and Current Gaps in Open-Source LLM Vulnerability Scanners: A Comparative Analysis
- arxiv url: http://arxiv.org/abs/2410.16527v2
- Date: Wed, 13 Nov 2024 17:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 19:25:06.039747
- Title: Insights and Current Gaps in Open-Source LLM Vulnerability Scanners: A Comparative Analysis
- Title(参考訳): オープンソースのLCM脆弱性スキャナの洞察と現状:比較分析
- Authors: Jonathan Brokman, Omer Hofman, Oren Rachmil, Inderjeet Singh, Rathina Sabapathy Aishvariya Priya, Vikas Pahuja, Amit Giloni, Roman Vainshtein, Hisashi Kojima,
- Abstract要約: 本稿では,対話型大規模言語モデル(LLM)のためのオープンソースの脆弱性スキャナの比較分析を行う。
我々の研究は、脆弱性を公開するために赤いチームのプラクティスを適用する著名なスキャナー、Garak、Giskard、PyRIT、CyberSecEvalを評価した。
- 参考スコア(独自算出の注目度): 1.5149711185416004
- License:
- Abstract: This report presents a comparative analysis of open-source vulnerability scanners for conversational large language models (LLMs). As LLMs become integral to various applications, they also present potential attack surfaces, exposed to security risks such as information leakage and jailbreak attacks. Our study evaluates prominent scanners - Garak, Giskard, PyRIT, and CyberSecEval - that adapt red-teaming practices to expose these vulnerabilities. We detail the distinctive features and practical use of these scanners, outline unifying principles of their design and perform quantitative evaluations to compare them. These evaluations uncover significant reliability issues in detecting successful attacks, highlighting a fundamental gap for future development. Additionally, we contribute a preliminary labelled dataset, which serves as an initial step to bridge this gap. Based on the above, we provide strategic recommendations to assist organizations choose the most suitable scanner for their red-teaming needs, accounting for customizability, test suite comprehensiveness, and industry-specific use cases.
- Abstract(参考訳): 本稿では,対話型大規模言語モデル(LLM)のためのオープンソースの脆弱性スキャナの比較分析を行う。
LLMが様々なアプリケーションに不可欠なものになると、情報漏洩やジェイルブレイク攻撃といったセキュリティリスクにさらされる潜在的な攻撃面も提示される。
我々の研究は、これらの脆弱性を公開するために赤いチームのプラクティスを適用する著名なスキャナー(Garak、Giskard、PyRIT、CyberSecEval)を評価する。
これらのスキャナの特徴と実用性について詳述し、それらの設計の統一原理を概説し、比較するための定量的評価を行う。
これらの評価は、攻撃を成功させるための重大な信頼性の問題を明らかにし、将来の開発における根本的なギャップを浮き彫りにしている。
さらに、このギャップを埋める最初のステップとなるラベル付きデータセットも提供します。
以上に基づいて、私たちは組織がレッドチームのニーズに対して最も適したスキャナ、カスタマイズ性の説明、テストスイートの包括性、業界固有のユースケースを選択するのを支援する戦略的勧告を提供します。
関連論文リスト
- Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - Investigating Coverage Criteria in Large Language Models: An In-Depth Study Through Jailbreak Attacks [10.909463767558023]
本稿では,ニューラルアクティベーション機能を利用して,ジェイルブレイク攻撃をリアルタイムに検出するための革新的なアプローチを提案する。
提案手法は,LLMを組み込んだ将来のシステムにおいて,堅牢なリアルタイム検出機能を実現することを約束する。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Vulnerability Clustering and other Machine Learning Applications of
Semantic Vulnerability Embeddings [23.143031911859847]
自然言語処理(NLP)技術に基づく意味的脆弱性の埋め込みについて検討した。
また、サイバーセキュリティ研究者やアナリストを支援する機械学習アプリケーションの基礎としての利用を評価した。
私たちが調査し、簡単に要約した特定のアプリケーションは、クラスタリング、分類、可視化です。
論文 参考訳(メタデータ) (2023-08-23T21:39:48Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Poisoning Attacks and Defenses on Artificial Intelligence: A Survey [3.706481388415728]
データ中毒攻撃は、トレーニングフェーズ中にモデルに供給されたデータサンプルを改ざんして、推論フェーズ中にモデルの精度を低下させる攻撃の一種である。
この研究は、この種の攻撃に対処する最新の文献で見つかった最も関連性の高い洞察と発見をまとめたものである。
実環境下での幅広いMLモデルに対するデータ中毒の影響を比較検討し,本研究の徹底的な評価を行った。
論文 参考訳(メタデータ) (2022-02-21T14:43:38Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。