Fugu-MT 論文翻訳(概要): Using Large Language Models for Cybersecurity Capture-The-Flag Challenges and Certification Questions

論文の概要: Using Large Language Models for Cybersecurity Capture-The-Flag Challenges and Certification Questions

arxiv url: http://arxiv.org/abs/2308.10443v1
Date: Mon, 21 Aug 2023 03:30:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 15:18:43.138621
Title: Using Large Language Models for Cybersecurity Capture-The-Flag Challenges and Certification Questions
Title（参考訳）: 大規模言語モデルを用いたサイバーセキュリティキャプチャー-フラッグ問題と認定問題
Authors: Wesley Tann, Yuancheng Liu, Jun Heng Sim, Choon Meng Seah, Ee-Chien Chang
Abstract要約: サイバーセキュリティキャプチャー・ザ・フラッグ(CTF: Cybersecurity Capture-The-Flag)のエクササイズの評価には、システムの脆弱性を利用して、参加者が文字列やフラグを見つけることが含まれる。 LLM(Large Language Models)は、テキストの理解と生成のために大量の単語で訓練された自然言語モデルである。本研究は,LCMの有効性,特にCTFの課題と課題の領域における有効性について検討する。
参考スコア（独自算出の注目度）: 5.772077916138848
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The assessment of cybersecurity Capture-The-Flag (CTF) exercises involves participants finding text strings or ``flags'' by exploiting system vulnerabilities. Large Language Models (LLMs) are natural-language models trained on vast amounts of words to understand and generate text; they can perform well on many CTF challenges. Such LLMs are freely available to students. In the context of CTF exercises in the classroom, this raises concerns about academic integrity. Educators must understand LLMs' capabilities to modify their teaching to accommodate generative AI assistance. This research investigates the effectiveness of LLMs, particularly in the realm of CTF challenges and questions. Here we evaluate three popular LLMs, OpenAI ChatGPT, Google Bard, and Microsoft Bing. First, we assess the LLMs' question-answering performance on five Cisco certifications with varying difficulty levels. Next, we qualitatively study the LLMs' abilities in solving CTF challenges to understand their limitations. We report on the experience of using the LLMs for seven test cases in all five types of CTF challenges. In addition, we demonstrate how jailbreak prompts can bypass and break LLMs' ethical safeguards. The paper concludes by discussing LLM's impact on CTF exercises and its implications.
Abstract（参考訳）: cybersecurity capture-the-flag(ctf)エクササイズの評価は、システムの脆弱性を悪用することで、参加者がテキスト文字列や ``flags'' を見つけることを伴う。大規模言語モデル(英語版)(llm)は、テキストを理解し、生成するために膨大な量の単語で訓練された自然言語モデルである。このようなLSMは学生に無料で提供される。教室でのCTF演習の文脈において、これは学術的整合性に関する懸念を提起する。教育者は、ジェネレーティブAI支援に対応するために、LLMが教えを変更する能力を理解する必要がある。本研究では,LCMの有効性,特にCTFの課題と課題の領域において検討する。ここでは、OpenAI ChatGPT、Google Bard、Microsoft Bingの3つの人気のあるLCMを評価します。まず,難易度が異なる5つのCisco認定試験において,LLMの質問応答性能を評価する。次に,その限界を理解するために CTF 課題を解決するための LLM の能力について質的に検討する。 5種類のctf課題すべてにおいて,7つのテストケースでllmを使用した経験について報告する。さらに, 脱獄プロンプトが LLM の倫理的保護をバイパスし, 破壊する様子を実証する。本稿は、LCMがCTF運動に与える影響とその影響について論じる。

関連論文リスト

Self-Correction Makes LLMs Better Parsers [19.20952673157709]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著な成功を収めている。近年の研究では、深い言語理解に不可欠な基本的なNLPタスクを実行する上で、依然として課題に直面していることが示唆されている。本稿では,既存の木バンクからの文法規則を活かした自己補正手法を提案する。
論文参考訳（メタデータ） (2025-04-19T03:50:59Z)
Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data [9.31120925026271]
本研究では, LLMが学習文書に分散した証拠から潜伏情報を推測する, 暗黙の帰納的推論(OOCR)について検討する。ある実験では、未知の都市と他の既知の都市の間の距離のみからなるコーパスにLSMを微調整する。 OOCRは様々なケースで成功するが、特にLLMが複雑な構造を学ぶ場合、信頼性が低いことも示している。
論文参考訳（メタデータ） (2024-06-20T17:55:04Z)
SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.02175403852253]
LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
論文参考訳（メタデータ） (2024-06-14T21:52:21Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
An Empirical Evaluation of LLMs for Solving Offensive Security Challenges [27.058760434139455]
大きな言語モデル(LLM)は、Capture The Flag(CTF)の課題を解決するために使用されている。 CTFを解いた2つのHuman-in-the-loop(HITL)と完全自動化ワークフローを開発し、選択したCTF課題を解くLLMの能力を検証した。 LLMは平均的なヒトよりも高い成功率を達成できることがわかった。
論文参考訳（メタデータ） (2024-02-19T04:08:44Z)
When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。 FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文参考訳（メタデータ） (2024-02-16T22:12:53Z)
A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文参考訳（メタデータ） (2023-12-04T16:25:18Z)
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。数学的推論とコモンセンス推論の実験を行う。
論文参考訳（メタデータ） (2023-11-22T17:24:21Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)
Exploring the Responses of Large Language Models to Beginner Programmers' Help Requests [1.8260333137469122]
大規模言語モデル(LLM)が、学生が助けを求める問題のあるコードの問題を特定するのにいかに優れているかを評価する。オンラインプログラミングコースからヘルプリクエストとコードのサンプルを収集しました。
論文参考訳（メタデータ） (2023-06-09T07:19:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。