論文の概要: Using Large Language Models for Cybersecurity Capture-The-Flag
Challenges and Certification Questions
- arxiv url: http://arxiv.org/abs/2308.10443v1
- Date: Mon, 21 Aug 2023 03:30:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 15:18:43.138621
- Title: Using Large Language Models for Cybersecurity Capture-The-Flag
Challenges and Certification Questions
- Title(参考訳): 大規模言語モデルを用いたサイバーセキュリティキャプチャー-フラッグ問題と認定問題
- Authors: Wesley Tann, Yuancheng Liu, Jun Heng Sim, Choon Meng Seah, Ee-Chien
Chang
- Abstract要約: サイバーセキュリティキャプチャー・ザ・フラッグ(CTF: Cybersecurity Capture-The-Flag)のエクササイズの評価には、システムの脆弱性を利用して、参加者が文字列やフラグを見つけることが含まれる。
LLM(Large Language Models)は、テキストの理解と生成のために大量の単語で訓練された自然言語モデルである。
本研究は,LCMの有効性,特にCTFの課題と課題の領域における有効性について検討する。
- 参考スコア(独自算出の注目度): 5.772077916138848
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The assessment of cybersecurity Capture-The-Flag (CTF) exercises involves
participants finding text strings or ``flags'' by exploiting system
vulnerabilities. Large Language Models (LLMs) are natural-language models
trained on vast amounts of words to understand and generate text; they can
perform well on many CTF challenges. Such LLMs are freely available to
students. In the context of CTF exercises in the classroom, this raises
concerns about academic integrity. Educators must understand LLMs' capabilities
to modify their teaching to accommodate generative AI assistance. This research
investigates the effectiveness of LLMs, particularly in the realm of CTF
challenges and questions. Here we evaluate three popular LLMs, OpenAI ChatGPT,
Google Bard, and Microsoft Bing. First, we assess the LLMs' question-answering
performance on five Cisco certifications with varying difficulty levels. Next,
we qualitatively study the LLMs' abilities in solving CTF challenges to
understand their limitations. We report on the experience of using the LLMs for
seven test cases in all five types of CTF challenges. In addition, we
demonstrate how jailbreak prompts can bypass and break LLMs' ethical
safeguards. The paper concludes by discussing LLM's impact on CTF exercises and
its implications.
- Abstract(参考訳): cybersecurity capture-the-flag(ctf)エクササイズの評価は、システムの脆弱性を悪用することで、参加者がテキスト文字列や ``flags'' を見つけることを伴う。
大規模言語モデル(英語版)(llm)は、テキストを理解し、生成するために膨大な量の単語で訓練された自然言語モデルである。
このようなLSMは学生に無料で提供される。
教室でのCTF演習の文脈において、これは学術的整合性に関する懸念を提起する。
教育者は、ジェネレーティブAI支援に対応するために、LLMが教えを変更する能力を理解する必要がある。
本研究では,LCMの有効性,特にCTFの課題と課題の領域において検討する。
ここでは、OpenAI ChatGPT、Google Bard、Microsoft Bingの3つの人気のあるLCMを評価します。
まず,難易度が異なる5つのCisco認定試験において,LLMの質問応答性能を評価する。
次に,その限界を理解するために CTF 課題を解決するための LLM の能力について質的に検討する。
5種類のctf課題すべてにおいて,7つのテストケースでllmを使用した経験について報告する。
さらに, 脱獄プロンプトが LLM の倫理的保護をバイパスし, 破壊する様子を実証する。
本稿は、LCMがCTF運動に与える影響とその影響について論じる。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - LLM-Resistant Math Word Problem Generation via Adversarial Attacks [7.565175012136751]
大型言語モデル(LLM)は教育の景観を大きく変えた。
LLMは、問題の数値を単純に編集することで、誤った答えを生成する。
本稿では,高コストモデルを攻撃するための費用対効果のアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good,
the Bad, and the Ugly [22.819970080579004]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - At Which Training Stage Does Code Data Help LLMs Reasoning? [21.74241875923737]
本稿では,Large Language Models (LLM) に対するコードデータの影響について検討する。
コードとテキストの混合による事前学習 LLM は LLM の一般的な推論能力を大幅に向上させることができる。
命令チューニングの段階では、コードデータはLLMにタスク固有の推論能力を与える。
論文 参考訳(メタデータ) (2023-09-28T09:50:27Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Exploring the Responses of Large Language Models to Beginner
Programmers' Help Requests [1.8260333137469122]
大規模言語モデル(LLM)が、学生が助けを求める問題のあるコードの問題を特定するのにいかに優れているかを評価する。
オンラインプログラミングコースからヘルプリクエストとコードのサンプルを収集しました。
論文 参考訳(メタデータ) (2023-06-09T07:19:43Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。