論文の概要: An Empirical Evaluation of LLMs for Solving Offensive Security Challenges
- arxiv url: http://arxiv.org/abs/2402.11814v1
- Date: Mon, 19 Feb 2024 04:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 08:56:22.659453
- Title: An Empirical Evaluation of LLMs for Solving Offensive Security Challenges
- Title(参考訳): 攻撃的セキュリティ課題解決のためのLLMの実証評価
- Authors: Minghao Shao, Boyuan Chen, Sofija Jancheska, Brendan Dolan-Gavitt, Siddharth Garg, Ramesh Karri, Muhammad Shafique,
- Abstract要約: 大きな言語モデル(LLM)は、Capture The Flag(CTF)の課題を解決するために使用されている。
CTFを解いた2つのHuman-in-the-loop(HITL)と完全自動化ワークフローを開発し、選択したCTF課題を解くLLMの能力を検証した。
LLMは平均的なヒトよりも高い成功率を達成できることがわかった。
- 参考スコア(独自算出の注目度): 27.058760434139455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capture The Flag (CTF) challenges are puzzles related to computer security scenarios. With the advent of large language models (LLMs), more and more CTF participants are using LLMs to understand and solve the challenges. However, so far no work has evaluated the effectiveness of LLMs in solving CTF challenges with a fully automated workflow. We develop two CTF-solving workflows, human-in-the-loop (HITL) and fully-automated, to examine the LLMs' ability to solve a selected set of CTF challenges, prompted with information about the question. We collect human contestants' results on the same set of questions, and find that LLMs achieve higher success rate than an average human participant. This work provides a comprehensive evaluation of the capability of LLMs in solving real world CTF challenges, from real competition to fully automated workflow. Our results provide references for applying LLMs in cybersecurity education and pave the way for systematic evaluation of offensive cybersecurity capabilities in LLMs.
- Abstract(参考訳): Capture The Flag (CTF)チャレンジは、コンピュータセキュリティシナリオに関連するパズルである。
大規模言語モデル(LLM)の出現に伴い、より多くのCTF参加者がこの課題を理解し解決するためにLLMを使用している。
しかし、完全に自動化されたワークフローでCTFの課題を解決する上でのLLMの有効性を評価する研究は今のところない。
我々は,Human-in-the-loop(HITL)と完全自動化の2つのCTF解決ワークフローを開発し,選択したCTF課題の解決能力を検討する。
また,LLMが平均的な人間よりも高い成功率を達成できることを示す。
この研究は、現実の競争から完全に自動化されたワークフローに至るまで、現実のCTF課題を解決するためのLLMの能力を総合的に評価する。
本研究は,LLMをサイバーセキュリティ教育に適用するための参考資料を提供し,LLMの攻撃的サイバーセキュリティ能力を体系的に評価する方法について検討した。
関連論文リスト
- Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - LLM-Resistant Math Word Problem Generation via Adversarial Attacks [6.92510069380188]
大型言語モデル(LLM)は教育の景観を大きく変えた。
現在の盗作検出ツールがLDMのペースを維持するのに苦労しているため、教育コミュニティは学生の真の問題解決能力を評価するという課題に直面している。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Competition-Level Problems are Effective LLM Evaluators [124.7648712310141]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - LLM Augmented Hierarchical Agents [4.574041097539858]
強化学習(Reinforcement Learning, RL)を用いた長期的時間的拡張タスクの解決は困難であり、事前知識(あるいは表層ラサ学習)を伴わない学習の一般的な実践によって複雑化される。
本稿では,LL を用いて環境から学習する上での LLM の計画能力を活用し,LLM を用いて長期的タスクを解く階層的エージェントを実現する。
このアプローチは、MiniGrid、SkillHack、Crafterなどのシミュレーション環境や、ブロック操作タスクにおける実際のロボットアームで評価される。
論文 参考訳(メタデータ) (2023-11-09T18:54:28Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - AdaRefiner: Refining Decisions of Language Models with Adaptive Feedback [37.22370177877156]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
複雑な意思決定タスクにおけるそれらの応用は、しばしば複雑な迅速なエンジニアリングや微調整を必要とする。
本稿では,LLMとRLフィードバックの相乗効果を高めるために設計された新しいフレームワークであるAdaRefinerを紹介する。
我々の研究は、RLフィードバックによるLLMの自動自己修正に貢献し、複雑な意思決定問題に対してより適応的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-29T12:16:19Z) - Using Large Language Models for Cybersecurity Capture-The-Flag
Challenges and Certification Questions [5.772077916138848]
サイバーセキュリティキャプチャー・ザ・フラッグ(CTF: Cybersecurity Capture-The-Flag)のエクササイズの評価には、システムの脆弱性を利用して、参加者が文字列やフラグを見つけることが含まれる。
LLM(Large Language Models)は、テキストの理解と生成のために大量の単語で訓練された自然言語モデルである。
本研究は,LCMの有効性,特にCTFの課題と課題の領域における有効性について検討する。
論文 参考訳(メタデータ) (2023-08-21T03:30:21Z) - Encouraging Divergent Thinking in Large Language Models through
Multi-Agent Debate [56.23037393834715]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。