Fugu-MT 論文翻訳(概要): HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing

論文の概要: HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing

arxiv url: http://arxiv.org/abs/2412.01778v1
Date: Mon, 02 Dec 2024 18:28:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.692258
Title: HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing
Title（参考訳）: HackSynth: LLMエージェントと自律貫入テストのための評価フレームワーク
Authors: Lajos Muzsai, David Imolai, András Lukács,
Abstract要約: 本稿では,Large Language Model (LLM) をベースとした,自律的な浸透試験が可能なエージェントであるHack Synthを紹介する。 Hack Synthをベンチマークするために、人気のあるプラットフォームであるPicoCTFとOverTheWireを利用する2つの新しいCapture The Flag(CTF)ベースのベンチマークセットを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce HackSynth, a novel Large Language Model (LLM)-based agent capable of autonomous penetration testing. HackSynth's dual-module architecture includes a Planner and a Summarizer, which enable it to generate commands and process feedback iteratively. To benchmark HackSynth, we propose two new Capture The Flag (CTF)-based benchmark sets utilizing the popular platforms PicoCTF and OverTheWire. These benchmarks include two hundred challenges across diverse domains and difficulties, providing a standardized framework for evaluating LLM-based penetration testing agents. Based on these benchmarks, extensive experiments are presented, analyzing the core parameters of HackSynth, including creativity (temperature and top-p) and token utilization. Multiple open source and proprietary LLMs were used to measure the agent's capabilities. The experiments show that the agent performed best with the GPT-4o model, better than what the GPT-4o's system card suggests. We also discuss the safety and predictability of HackSynth's actions. Our findings indicate the potential of LLM-based agents in advancing autonomous penetration testing and the importance of robust safeguards. HackSynth and the benchmarks are publicly available to foster research on autonomous cybersecurity solutions.
Abstract（参考訳）: 本稿では,Large Language Model (LLM) をベースとした,自律的な浸透試験が可能なエージェントであるHackSynthを紹介する。 HackSynthのデュアルモジュールアーキテクチャにはPlannerとSummarizerが含まれている。 HackSynthをベンチマークするために、人気のあるプラットフォームであるPicoCTFとOverTheWireを利用する2つの新しいCapture The Flag(CTF)ベースのベンチマークセットを提案する。これらのベンチマークには、さまざまな領域にわたる200の課題と難易度が含まれており、LLMベースの浸透試験エージェントを評価するための標準化されたフレームワークを提供する。これらのベンチマークに基づいて、クリエイティビティ(温度とトップp)とトークン利用を含むHackSynthのコアパラメータを分析し、広範な実験を行う。複数のオープンソースとプロプライエタリなLLMを使用してエージェントの能力を測定した。実験の結果, GPT-4oモデルでは, GPT-4oのシステムカードよりも優れた性能を示した。また,HackSynthの行動の安全性と予測可能性についても論じる。以上の結果から, 自律貫入試験におけるLSMをベースとしたエージェントの可能性と, 堅牢な安全対策の重要性が示唆された。 HackSynthとベンチマークは、自律型サイバーセキュリティソリューションの研究を促進するために公開されている。

関連論文リスト

Prompt to Pwn: Automated Exploit Generation for Smart Contracts [7.808685501356819]
LLMベースのエクスプロイト合成をFoundryテストスイートに統合するフレームワークであるtextscReXを提案する。我々は、既知のハイインパクトエクスプロイトの影響を受け、合成ベンチマークと実世界のスマートコントラクトの両方で、最先端の5つのLCMを評価した。以上の結果から,現代のLLMでは,さまざまな脆弱性タイプに対して,機能的なPoCエクスプロイトを確実に生成することが可能であり,成功率は最大92%に達することが示唆された。
論文参考訳（メタデータ） (2025-08-02T13:52:15Z)
Vulnerability Mitigation System (VMS): LLM Agent and Evaluation Framework for Autonomous Penetration Testing [0.0]
人間の介入なしに侵入試験を行うことのできる脆弱性軽減システム(VMS)を提案する。 VMSには、計画のための2つのアーキテクチャと、コマンドの生成とフィードバックの処理を可能にするSummarizerがある。テストの標準化のために,PicoCTFとOverTheWireをベースとした2つの新しいCapture the Flagベンチマークを設計した。
論文参考訳（メタデータ） (2025-07-14T06:19:17Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。 DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文参考訳（メタデータ） (2025-03-20T19:52:30Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins [8.244444633880603]
シムベンチ(SimBench)は、学生大言語モデル(S-LLM)のデジタルツイン(DT)生成能力を評価するためのベンチマークである。 S-LLMのコレクションを与えられたこのベンチマークは、高品質なDTを生成する能力に基づいて、S-LLMのランク付けを可能にする。
論文参考訳（メタデータ） (2024-08-21T20:52:32Z)
NYU CTF Bench: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security [28.125179435861316]
大規模言語モデル(LLM)は、さまざまなドメインにデプロイされているが、Capture the Flag(CTF)の課題を解決する能力は、十分に評価されていない。我々は、スケーラブルでオープンソースのベンチマークデータベースを作成することで、CTFの課題を解決する上で、LCMを評価する新しい手法を開発した。このデータベースは、LLMテストと適応学習のためのメタデータを含み、人気のあるコンペからさまざまなCTF課題をコンパイルする。
論文参考訳（メタデータ） (2024-06-08T22:21:42Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
A Preliminary Study on Using Large Language Models in Software Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文参考訳（メタデータ） (2024-01-30T21:42:59Z)
Selene: Pioneering Automated Proof in Software Verification [62.09555413263788]
実世界の産業レベルのマイクロカーネルであるseL4をベースとした,最初のプロジェクトレベルの自動証明ベンチマークであるSeleneを紹介する。 GPT-3.5-turbo や GPT-4 のような先進的な大規模言語モデル (LLM) による実験結果から, 自動証明生成領域における LLM の機能を強調した。
論文参考訳（メタデータ） (2024-01-15T13:08:38Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks [0.0]
言語モデル(LLM)と浸透試験の共通点について検討する。本稿では,LLMの(倫理的)ハッキングに対する有効性を評価するための,完全自動特権エスカレーションツールを提案する。我々は,異なるコンテキストサイズ,コンテキスト内学習,任意の高レベルメカニズム,メモリ管理技術の影響を分析する。
論文参考訳（メタデータ） (2023-10-17T17:15:41Z)
Mystique: Enabling Accurate and Scalable Generation of Production AI Benchmarks [2.0315147707806283]
Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。 Mystiqueは、オーバーヘッドランタイムとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。我々は,本手法をいくつかの実運用AIモデルで評価し,Mystiqueで生成されたベンチマークがオリジナルのAIモデルとよく似ていることを示す。
論文参考訳（メタデータ） (2022-12-16T18:46:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。