論文の概要: AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations using Fine-tuned and Open-Source LLMs
- arxiv url: http://arxiv.org/abs/2411.01073v1
- Date: Fri, 01 Nov 2024 23:03:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:40.487587
- Title: AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations using Fine-tuned and Open-Source LLMs
- Title(参考訳): アタックQA: 細調整およびオープンソースLCMを用いたサイバーセキュリティ運用支援データセットの開発と導入
- Authors: Varun Badrinath Krishna,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザクエリに対する応答を生成するために微調整される。
本研究では,AttackQAと呼ばれるサイバーセキュリティ質問応答(Q&A)データセットを開発する。
我々は、セキュリティオペレーションセンターのアナリスト向けに設計されたRAGベースのQ&Aシステムを構築するためにそれを利用している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Retrieval-augmented generation (RAG) on specialized domain datasets has shown improved performance when large language models (LLMs) are fine-tuned for generating responses to user queries. In this study, we develop a cybersecurity question-answering (Q\&A) dataset, called AttackQA, and employ it to build a RAG-based Q\&A system designed for analysts in security operations centers. The dataset comprises 25,335 Q\&A pairs, accompanied by rationales to facilitate fine-tuning and evaluation. 80\% of the dataset was generated with help of a lightweight open-source LLM (LLama 3 8B), which produced over 1100 tokens per second with full 16-bit precision on SambaNova System's SN40L specialized hardware. To ensure dataset quality, we fine-tuned LLama 3 70B to detect and reject low-quality Q\&A pairs. In using the dataset for RAG, we demonstrate that fine-tuning open-source embeddings and LLMs can yield superior accuracy compared to OpenAI's state-of-the-art proprietary embedding and LLM (GPT-4o). Furthermore, we use Llama 3.1 405B as a judge to evaluate answer correctness, enabling the creation of a fully open-source, high-speed RAG and evaluation pipeline with a benchmark for model accuracy.
- Abstract(参考訳): 特殊なドメインデータセット上での検索拡張生成(RAG)は、ユーザクエリに対する応答を生成するために大規模言語モデル(LLM)を微調整することで、パフォーマンスが向上した。
本研究では,AttackQA(アタックQA)と呼ばれるサイバーセキュリティ質問応答(Q\&A)データセットを開発し,セキュリティ運用センターのアナリスト向けに設計されたRAGベースのQ\&Aシステムを構築する。
データセットは25,335のQ\&Aペアで構成され、微調整と評価を容易にする合理性を伴う。
データセットの80%は、SambaNova SystemのSN40L専用ハードウェアで完全な16ビット精度で毎秒1100トークンを生成できる軽量のオープンソースLCM(LLama 3 8B)の助けを借りて生成された。
データセットの品質を確保するため、LLama 3 70Bを微調整して、品質の低いQ\&Aペアを検出し、拒否した。
RAGのデータセットを用いることで、OpenAIの最先端の独自埋め込みとLLM(GPT-4o)と比較して、微調整のオープンソース埋め込みとLLMの精度が向上することを示した。
さらに,Llama 3.1 405B を用いて回答の正当性を判定し,完全オープンソースで高速な RAG と評価パイプラインをモデル精度のベンチマークで作成する。
関連論文リスト
- Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-12T16:30:51Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
大規模言語モデル(LLM)は、内部(パラメトリック)知識にのみ依存して、事実的な回答を生成するのに苦労することが多い。
この制限に対処するため、Retrieval-Augmented Generation (RAG)システムでは、外部ソースから関連情報を検索することでLLMを強化している。
我々はLLMのランキング機能を活用してW-RAGを提案する。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA [5.0108982850526]
検索拡張生成(RAG)は、外部データベースから事実情報を抽出することにより、生成AIモデルの精度と信頼性を高める。
本稿では、EDAツールドキュメンテーションQAのための3つのドメイン固有のテクニックとともに、カスタマイズされたRAGフレームワークを提案する。
我々は,高度なRTL-to-GDSII設計プラットフォームであるOpenROADのドキュメントQA評価ベンチマークであるORD-QAを開発し,リリースした。
論文 参考訳(メタデータ) (2024-07-22T03:44:27Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - ERATTA: Extreme RAG for Table To Answers with Large Language Models [1.3318204310917532]
検索拡張現実(RAG)を備えた大規模言語モデル(LLM)は、スケーラブルな生成AIソリューションに最適な選択肢である。
本研究では,データ認証,ユーザクエリルーティング,データ検索,エンタープライズデータテーブルからの質問応答機能へのカスタムプロンプトを実現するために,複数のLLMを起動可能なLLMベースのユニークなシステムを提案する。
提案するシステムと評価基準は,持続可能性,財務状況,ソーシャルメディア領域において,数百のユーザクエリに対して,90%以上の信頼性スコアを達成している。
論文 参考訳(メタデータ) (2024-05-07T02:49:59Z) - Enhancing LLM Factual Accuracy with RAG to Counter Hallucinations: A Case Study on Domain-Specific Queries in Private Knowledge-Bases [9.478012553728538]
大規模言語モデル(LLM)の現実的精度を向上させるために,検索拡張生成(RAG)を利用するエンド・ツー・エンドのシステム設計を提案する。
我々のシステムはRAGパイプラインと上流データセット処理と下流性能評価を統合している。
本実験は,ドメイン固有で時間に敏感な質問に対して,より正確な回答を生成するシステムの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-15T16:30:14Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。