論文の概要: SecQA: A Concise Question-Answering Dataset for Evaluating Large
Language Models in Computer Security
- arxiv url: http://arxiv.org/abs/2312.15838v1
- Date: Tue, 26 Dec 2023 00:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:20:27.215360
- Title: SecQA: A Concise Question-Answering Dataset for Evaluating Large
Language Models in Computer Security
- Title(参考訳): SecQA: コンピュータセキュリティにおける大規模言語モデル評価のための簡潔な質問回答データセット
- Authors: Zefang Liu
- Abstract要約: 本稿では,コンピュータセキュリティ分野におけるLarge Language Models(LLM)の性能評価を目的とした,新しいデータセットSecQAを紹介する。
複雑さが増大する2つのバージョンを含むSecQAの構造と意図を詳述し、様々な難易度で簡潔な評価を行う。
GPT-3.5-Turbo, GPT-4, Llama-2, Vicuna, Mistral, Zephyrの各モデルにおいて,0ショットと5ショットの学習設定を用いて,優れたLCMの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce SecQA, a novel dataset tailored for evaluating
the performance of Large Language Models (LLMs) in the domain of computer
security. Utilizing multiple-choice questions generated by GPT-4 based on the
"Computer Systems Security: Planning for Success" textbook, SecQA aims to
assess LLMs' understanding and application of security principles. We detail
the structure and intent of SecQA, which includes two versions of increasing
complexity, to provide a concise evaluation across various difficulty levels.
Additionally, we present an extensive evaluation of prominent LLMs, including
GPT-3.5-Turbo, GPT-4, Llama-2, Vicuna, Mistral, and Zephyr models, using both
0-shot and 5-shot learning settings. Our results, encapsulated in the SecQA v1
and v2 datasets, highlight the varying capabilities and limitations of these
models in the computer security context. This study not only offers insights
into the current state of LLMs in understanding security-related content but
also establishes SecQA as a benchmark for future advancements in this critical
research area.
- Abstract(参考訳): 本稿では,コンピュータセキュリティ分野における大規模言語モデル(LLM)の性能評価に適した新しいデータセットSecQAを紹介する。
gpt-4は"computer systems security: planning for success"という教科書に基づいて、セキュリティ原則のllmsの理解と適用を評価することを目標としている。
複雑さが増大する2つのバージョンを含むSecQAの構造と意図を詳述し、様々な難易度で簡潔な評価を行う。
また,GPT-3.5-Turbo,GPT-4,Llama-2,Vicuna,Mistral,Zephyrの各モデルにおいて,0ショットと5ショットの学習設定を用いて,優れたLCMの評価を行った。
我々の結果はSecQA v1とv2データセットにカプセル化され、コンピュータセキュリティコンテキストにおけるこれらのモデルのさまざまな機能と制限を強調します。
この研究は、セキュリティ関連コンテンツの理解におけるllmの現状に関する洞察を提供するだけでなく、この重要な研究領域における今後の進歩のベンチマークとしてsecqaを確立する。
関連論文リスト
- CS-Eval: A Comprehensive Large Language Model Benchmark for CyberSecurity [25.07282324266835]
CS-Evalは、サイバーセキュリティにおける大規模言語モデル(LLM)のベンチマークである。
学界から研究ホットスポットを合成し、産業から実用化する。
高品質な質問を3つの認知レベル(知識、能力、応用)に分類する。
論文 参考訳(メタデータ) (2024-11-25T09:54:42Z) - Aggregated Knowledge Model: Enhancing Domain-Specific QA with Fine-Tuned and Retrieval-Augmented Generation Models [0.0]
本稿では,クローズドドメイン質問応答システム(QA)の新たなアプローチを提案する。
ローレンス・バークレー国立研究所(LBL)科学情報技術(ScienceIT)ドメインの特定のニーズに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-24T00:49:46Z) - SoK: Prompt Hacking of Large Language Models [5.056128048855064]
大規模言語モデル(LLM)ベースのアプリケーションの安全性と堅牢性は、人工知能において重要な課題である。
私たちは、ジェイルブレイク、リーク、インジェクションという3つの異なるタイプのプロンプトハッキングについて、包括的で体系的な概要を提供しています。
LLM応答を5つの異なるクラスに分類する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T01:30:41Z) - IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization [59.06663981902496]
クエリ中心の要約(QFS)は、特定の関心事に答え、より優れたユーザ制御とパーソナライゼーションを可能にする要約を作成することを目的としている。
本稿では,LLMを用いたQFSモデル,Longthy Document Summarization,およびクエリ-LLMアライメントの2つの重要な特徴について検討する。
これらのイノベーションは、QFS技術分野における幅広い応用とアクセシビリティの道を開いた。
論文 参考訳(メタデータ) (2024-07-15T07:14:56Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。
LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文 参考訳(メタデータ) (2024-05-08T02:09:17Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.068780235482514]
本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。
CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
論文 参考訳(メタデータ) (2023-12-07T22:07:54Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。