論文の概要: An Empirical Evaluation of LLMs for Solving Offensive Security Challenges
- arxiv url: http://arxiv.org/abs/2402.11814v1
- Date: Mon, 19 Feb 2024 04:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 08:56:22.659453
- Title: An Empirical Evaluation of LLMs for Solving Offensive Security Challenges
- Title(参考訳): 攻撃的セキュリティ課題解決のためのLLMの実証評価
- Authors: Minghao Shao, Boyuan Chen, Sofija Jancheska, Brendan Dolan-Gavitt, Siddharth Garg, Ramesh Karri, Muhammad Shafique,
- Abstract要約: 大きな言語モデル(LLM)は、Capture The Flag(CTF)の課題を解決するために使用されている。
CTFを解いた2つのHuman-in-the-loop(HITL)と完全自動化ワークフローを開発し、選択したCTF課題を解くLLMの能力を検証した。
LLMは平均的なヒトよりも高い成功率を達成できることがわかった。
- 参考スコア(独自算出の注目度): 27.058760434139455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capture The Flag (CTF) challenges are puzzles related to computer security scenarios. With the advent of large language models (LLMs), more and more CTF participants are using LLMs to understand and solve the challenges. However, so far no work has evaluated the effectiveness of LLMs in solving CTF challenges with a fully automated workflow. We develop two CTF-solving workflows, human-in-the-loop (HITL) and fully-automated, to examine the LLMs' ability to solve a selected set of CTF challenges, prompted with information about the question. We collect human contestants' results on the same set of questions, and find that LLMs achieve higher success rate than an average human participant. This work provides a comprehensive evaluation of the capability of LLMs in solving real world CTF challenges, from real competition to fully automated workflow. Our results provide references for applying LLMs in cybersecurity education and pave the way for systematic evaluation of offensive cybersecurity capabilities in LLMs.
- Abstract(参考訳): Capture The Flag (CTF)チャレンジは、コンピュータセキュリティシナリオに関連するパズルである。
大規模言語モデル(LLM)の出現に伴い、より多くのCTF参加者がこの課題を理解し解決するためにLLMを使用している。
しかし、完全に自動化されたワークフローでCTFの課題を解決する上でのLLMの有効性を評価する研究は今のところない。
我々は,Human-in-the-loop(HITL)と完全自動化の2つのCTF解決ワークフローを開発し,選択したCTF課題の解決能力を検討する。
また,LLMが平均的な人間よりも高い成功率を達成できることを示す。
この研究は、現実の競争から完全に自動化されたワークフローに至るまで、現実のCTF課題を解決するためのLLMの能力を総合的に評価する。
本研究は,LLMをサイバーセキュリティ教育に適用するための参考資料を提供し,LLMの攻撃的サイバーセキュリティ能力を体系的に評価する方法について検討した。
関連論文リスト
- CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示す。
本稿では,テキストベースの生成IoT(GIoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - NYU CTF Dataset: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security [28.125179435861316]
大規模言語モデル(LLM)は、さまざまなドメインにデプロイされているが、Capture the Flag(CTF)の課題を解決する能力は、十分に評価されていない。
我々は、スケーラブルでオープンソースのベンチマークデータベースを作成することで、CTFの課題を解決する上で、LCMを評価する新しい手法を開発した。
このデータベースは、LLMテストと適応学習のためのメタデータを含み、人気のあるコンペからさまざまなCTF課題をコンパイルする。
論文 参考訳(メタデータ) (2024-06-08T22:21:42Z) - Can LLMs Solve longer Math Word Problems Better? [47.227621867242]
大規模言語モデル(LLM)の能力評価にはMWP(Math Word Problems)が不可欠である
この研究は、文脈長一般化可能性(CoLeG)の探索の先駆者である。
これらの問題を解決する上で, LLMの有効性とレジリエンスを評価するために, 2つの新しい指標が提案されている。
論文 参考訳(メタデータ) (2024-05-23T17:13:50Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Using Large Language Models for Cybersecurity Capture-The-Flag
Challenges and Certification Questions [5.772077916138848]
サイバーセキュリティキャプチャー・ザ・フラッグ(CTF: Cybersecurity Capture-The-Flag)のエクササイズの評価には、システムの脆弱性を利用して、参加者が文字列やフラグを見つけることが含まれる。
LLM(Large Language Models)は、テキストの理解と生成のために大量の単語で訓練された自然言語モデルである。
本研究は,LCMの有効性,特にCTFの課題と課題の領域における有効性について検討する。
論文 参考訳(メタデータ) (2023-08-21T03:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。