論文の概要: SecQA: A Concise Question-Answering Dataset for Evaluating Large
Language Models in Computer Security
- arxiv url: http://arxiv.org/abs/2312.15838v1
- Date: Tue, 26 Dec 2023 00:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:20:27.215360
- Title: SecQA: A Concise Question-Answering Dataset for Evaluating Large
Language Models in Computer Security
- Title(参考訳): SecQA: コンピュータセキュリティにおける大規模言語モデル評価のための簡潔な質問回答データセット
- Authors: Zefang Liu
- Abstract要約: 本稿では,コンピュータセキュリティ分野におけるLarge Language Models(LLM)の性能評価を目的とした,新しいデータセットSecQAを紹介する。
複雑さが増大する2つのバージョンを含むSecQAの構造と意図を詳述し、様々な難易度で簡潔な評価を行う。
GPT-3.5-Turbo, GPT-4, Llama-2, Vicuna, Mistral, Zephyrの各モデルにおいて,0ショットと5ショットの学習設定を用いて,優れたLCMの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce SecQA, a novel dataset tailored for evaluating
the performance of Large Language Models (LLMs) in the domain of computer
security. Utilizing multiple-choice questions generated by GPT-4 based on the
"Computer Systems Security: Planning for Success" textbook, SecQA aims to
assess LLMs' understanding and application of security principles. We detail
the structure and intent of SecQA, which includes two versions of increasing
complexity, to provide a concise evaluation across various difficulty levels.
Additionally, we present an extensive evaluation of prominent LLMs, including
GPT-3.5-Turbo, GPT-4, Llama-2, Vicuna, Mistral, and Zephyr models, using both
0-shot and 5-shot learning settings. Our results, encapsulated in the SecQA v1
and v2 datasets, highlight the varying capabilities and limitations of these
models in the computer security context. This study not only offers insights
into the current state of LLMs in understanding security-related content but
also establishes SecQA as a benchmark for future advancements in this critical
research area.
- Abstract(参考訳): 本稿では,コンピュータセキュリティ分野における大規模言語モデル(LLM)の性能評価に適した新しいデータセットSecQAを紹介する。
gpt-4は"computer systems security: planning for success"という教科書に基づいて、セキュリティ原則のllmsの理解と適用を評価することを目標としている。
複雑さが増大する2つのバージョンを含むSecQAの構造と意図を詳述し、様々な難易度で簡潔な評価を行う。
また,GPT-3.5-Turbo,GPT-4,Llama-2,Vicuna,Mistral,Zephyrの各モデルにおいて,0ショットと5ショットの学習設定を用いて,優れたLCMの評価を行った。
我々の結果はSecQA v1とv2データセットにカプセル化され、コンピュータセキュリティコンテキストにおけるこれらのモデルのさまざまな機能と制限を強調します。
この研究は、セキュリティ関連コンテンツの理解におけるllmの現状に関する洞察を提供するだけでなく、この重要な研究領域における今後の進歩のベンチマークとしてsecqaを確立する。
関連論文リスト
- Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。
LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文 参考訳(メタデータ) (2024-05-08T02:09:17Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Exploring Advanced Methodologies in Security Evaluation for LLMs [16.753146059652877]
大規模言語モデル(LLM)は、初期のより単純な言語モデルの進化を象徴する。
複雑な言語パターンを処理し、一貫性のあるテキスト、画像、オーディオ、ビデオを生成する能力が強化されている。
LLMの急速な拡大は、学術コミュニティ内のセキュリティと倫理的懸念を提起している。
論文 参考訳(メタデータ) (2024-02-28T01:32:58Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large
Language Models [112.46733790998024]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Security and Privacy Challenges of Large Language Models: A Survey [2.9480813253164535]
LLM(Large Language Models)は、テキストの生成や要約、言語翻訳、質問応答など、非常に優れた機能を示し、複数の分野に貢献している。
これらのモデルは、Jailbreak攻撃、データ中毒攻撃、Personally Identible Information(PII)漏洩攻撃など、セキュリティやプライバシ攻撃にも脆弱である。
この調査では、トレーニングデータとユーザの両方に対するLLMのセキュリティとプライバシの課題と、輸送、教育、医療といったさまざまな領域におけるアプリケーションベースのリスクについて、徹底的にレビューする。
論文 参考訳(メタデータ) (2024-01-30T04:00:54Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.068780235482514]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。
CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文 参考訳(メタデータ) (2023-12-07T22:07:54Z) - Systematic Assessment of Factual Knowledge in Large Language Models [48.75961313441549]
本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
論文 参考訳(メタデータ) (2023-10-18T00:20:50Z) - OpsEval: A Comprehensive IT Operations Benchmark Suite for Large
Language Models [27.098628890605593]
大規模言語モデル(LLM)用に設計された総合的なタスク指向のOpsベンチマークであるOpsEvalを提示する。
このベンチマークには、英語と中国語で7184の質問と1736の質問回答(QA)形式が含まれている。
評価の信頼性を確保するため、何十人ものドメインエキスパートを招待して、質問を手動でレビューします。
論文 参考訳(メタデータ) (2023-10-11T16:33:29Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。