論文の概要: Using Large Language Models for Cybersecurity Capture-The-Flag
Challenges and Certification Questions
- arxiv url: http://arxiv.org/abs/2308.10443v1
- Date: Mon, 21 Aug 2023 03:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 15:18:43.138621
- Title: Using Large Language Models for Cybersecurity Capture-The-Flag
Challenges and Certification Questions
- Title(参考訳): 大規模言語モデルを用いたサイバーセキュリティキャプチャー-フラッグ問題と認定問題
- Authors: Wesley Tann, Yuancheng Liu, Jun Heng Sim, Choon Meng Seah, Ee-Chien
Chang
- Abstract要約: サイバーセキュリティキャプチャー・ザ・フラッグ(CTF: Cybersecurity Capture-The-Flag)のエクササイズの評価には、システムの脆弱性を利用して、参加者が文字列やフラグを見つけることが含まれる。
LLM(Large Language Models)は、テキストの理解と生成のために大量の単語で訓練された自然言語モデルである。
本研究は,LCMの有効性,特にCTFの課題と課題の領域における有効性について検討する。
- 参考スコア(独自算出の注目度): 5.772077916138848
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The assessment of cybersecurity Capture-The-Flag (CTF) exercises involves
participants finding text strings or ``flags'' by exploiting system
vulnerabilities. Large Language Models (LLMs) are natural-language models
trained on vast amounts of words to understand and generate text; they can
perform well on many CTF challenges. Such LLMs are freely available to
students. In the context of CTF exercises in the classroom, this raises
concerns about academic integrity. Educators must understand LLMs' capabilities
to modify their teaching to accommodate generative AI assistance. This research
investigates the effectiveness of LLMs, particularly in the realm of CTF
challenges and questions. Here we evaluate three popular LLMs, OpenAI ChatGPT,
Google Bard, and Microsoft Bing. First, we assess the LLMs' question-answering
performance on five Cisco certifications with varying difficulty levels. Next,
we qualitatively study the LLMs' abilities in solving CTF challenges to
understand their limitations. We report on the experience of using the LLMs for
seven test cases in all five types of CTF challenges. In addition, we
demonstrate how jailbreak prompts can bypass and break LLMs' ethical
safeguards. The paper concludes by discussing LLM's impact on CTF exercises and
its implications.
- Abstract(参考訳): cybersecurity capture-the-flag(ctf)エクササイズの評価は、システムの脆弱性を悪用することで、参加者がテキスト文字列や ``flags'' を見つけることを伴う。
大規模言語モデル(英語版)(llm)は、テキストを理解し、生成するために膨大な量の単語で訓練された自然言語モデルである。
このようなLSMは学生に無料で提供される。
教室でのCTF演習の文脈において、これは学術的整合性に関する懸念を提起する。
教育者は、ジェネレーティブAI支援に対応するために、LLMが教えを変更する能力を理解する必要がある。
本研究では,LCMの有効性,特にCTFの課題と課題の領域において検討する。
ここでは、OpenAI ChatGPT、Google Bard、Microsoft Bingの3つの人気のあるLCMを評価します。
まず,難易度が異なる5つのCisco認定試験において,LLMの質問応答性能を評価する。
次に,その限界を理解するために CTF 課題を解決するための LLM の能力について質的に検討する。
5種類のctf課題すべてにおいて,7つのテストケースでllmを使用した経験について報告する。
さらに, 脱獄プロンプトが LLM の倫理的保護をバイパスし, 破壊する様子を実証する。
本稿は、LCMがCTF運動に与える影響とその影響について論じる。
関連論文リスト
- Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data [10.922885479487066]
本研究では, LLMが学習文書に分散した証拠から潜伏情報を推測する, 暗黙の帰納的推論(OOCR)について検討する。
ある実験では、未知の都市と他の既知の都市の間の距離のみからなるコーパスにLSMを微調整する。
OOCRは様々なケースで成功するが、特にLLMが複雑な構造を学ぶ場合、信頼性が低いことも示している。
論文 参考訳(メタデータ) (2024-06-20T17:55:04Z) - SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。
そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。
我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-06-14T21:52:21Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - An Empirical Evaluation of LLMs for Solving Offensive Security Challenges [27.058760434139455]
大きな言語モデル(LLM)は、Capture The Flag(CTF)の課題を解決するために使用されている。
CTFを解いた2つのHuman-in-the-loop(HITL)と完全自動化ワークフローを開発し、選択したCTF課題を解くLLMの能力を検証した。
LLMは平均的なヒトよりも高い成功率を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-19T04:08:44Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
AlignedCoTは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Exploring the Responses of Large Language Models to Beginner
Programmers' Help Requests [1.8260333137469122]
大規模言語モデル(LLM)が、学生が助けを求める問題のあるコードの問題を特定するのにいかに優れているかを評価する。
オンラインプログラミングコースからヘルプリクエストとコードのサンプルを収集しました。
論文 参考訳(メタデータ) (2023-06-09T07:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。