論文の概要: CIPHER: Cybersecurity Intelligent Penetration-testing Helper for Ethical Researcher
- arxiv url: http://arxiv.org/abs/2408.11650v1
- Date: Wed, 21 Aug 2024 14:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:47:35.142817
- Title: CIPHER: Cybersecurity Intelligent Penetration-testing Helper for Ethical Researcher
- Title(参考訳): CIPHER: サイバーセキュリティのインテリジェントな侵入テスト支援者
- Authors: Derry Pratama, Naufal Suryanto, Andro Aprila Adiputra, Thi-Thu-Huong Le, Ahmada Yusril Kadiptya, Muhammad Iqbal, Howon Kim,
- Abstract要約: 本研究は,Cybersecurity Intelligent Peretration-testing Helper for Ethical researchers (CIPHER)を開発した。
私たちは、脆弱なマシンの300以上の高品質な書き込み、ハッキングテクニック、オープンソースの侵入テストツールのドキュメントを使用してCIPHERをトレーニングしました。
本研究では,完全自動ペンテスティング・シミュレーション・ベンチマークを確立するために,書込みテストの拡張手法であるFinderings, Action, Reasoning, Results (FARR) Flow Augmentationを紹介する。
- 参考スコア(独自算出の注目度): 1.6652242654250329
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Penetration testing, a critical component of cybersecurity, typically requires extensive time and effort to find vulnerabilities. Beginners in this field often benefit from collaborative approaches with the community or experts. To address this, we develop CIPHER (Cybersecurity Intelligent Penetration-testing Helper for Ethical Researchers), a large language model specifically trained to assist in penetration testing tasks. We trained CIPHER using over 300 high-quality write-ups of vulnerable machines, hacking techniques, and documentation of open-source penetration testing tools. Additionally, we introduced the Findings, Action, Reasoning, and Results (FARR) Flow augmentation, a novel method to augment penetration testing write-ups to establish a fully automated pentesting simulation benchmark tailored for large language models. This approach fills a significant gap in traditional cybersecurity Q\&A benchmarks and provides a realistic and rigorous standard for evaluating AI's technical knowledge, reasoning capabilities, and practical utility in dynamic penetration testing scenarios. In our assessments, CIPHER achieved the best overall performance in providing accurate suggestion responses compared to other open-source penetration testing models of similar size and even larger state-of-the-art models like Llama 3 70B and Qwen1.5 72B Chat, particularly on insane difficulty machine setups. This demonstrates that the current capabilities of general LLMs are insufficient for effectively guiding users through the penetration testing process. We also discuss the potential for improvement through scaling and the development of better benchmarks using FARR Flow augmentation results. Our benchmark will be released publicly at https://github.com/ibndias/CIPHER.
- Abstract(参考訳): サイバーセキュリティの重要なコンポーネントである浸透テストは、脆弱性を見つけるのに広範囲な時間と労力を必要とする。
この分野のベジニアは、しばしばコミュニティや専門家との協力的なアプローチの恩恵を受ける。
そこで我々はCIPHER(Cybersecurity Intelligent Peretration-testing Helper for Ethical researchers)を開発した。
私たちは、脆弱なマシンの300以上の高品質な書き込み、ハッキングテクニック、オープンソースの侵入テストツールのドキュメントを使用してCIPHERをトレーニングしました。
さらに我々は,大規模な言語モデルに適した完全自動ペンテスティングシミュレーションベンチマークを確立するために,インテグレーション・アクション・推論・結果(FARR)フロー拡張(en:Fundings, Action, Reasoning, results)を導入した。
このアプローチは、従来のサイバーセキュリティのQ\&Aベンチマークにおける大きなギャップを埋め、AIの技術知識、推論能力、動的侵入テストシナリオにおける実用性を評価するための、現実的で厳格な標準を提供する。
我々の評価では、CIPHERは、Llama 3 70BやQwen1.5 72B Chatのような、同じ大きさの他のオープンソース浸透試験モデルや、さらに大きな最先端モデルと比較して、正確な提案応答を提供することで、最高の全体的なパフォーマンスを達成しました。
このことは、汎用LLMの現在の能力が、侵入テストプロセスを通じてユーザを効果的に導くのに不十分であることを示している。
また、スケーリングによる改善の可能性や、FARR Flow Augmentationの結果を用いたより良いベンチマークの開発についても論じる。
私たちのベンチマークはhttps://github.com/ibndias/CIPHER.comで公開されます。
関連論文リスト
- Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework [4.802551205178858]
既存の大規模言語モデル(LLM)を支援または自動化した浸透テストアプローチは、しばしば非効率に悩まされる。
VulnBotは複雑なタスクを、偵察、スキャン、エクスプロイトという3つの特別なフェーズに分割する。
主なデザインの特徴は、役割の専門化、侵入経路計画、エージェント間コミュニケーション、生成的侵入行動である。
論文 参考訳(メタデータ) (2025-01-23T06:33:05Z) - PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。
大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。
我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:10:39Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements [1.4433703131122861]
大規模言語モデル(LLM)は、サイバーセキュリティなど、さまざまな分野に可能性を示している。
現在、包括的で、オープンで、エンドツーエンドの自動浸透テストベンチマークはありません。
本稿では,LLMを用いた自動貫入試験のための新しいオープンベンチマークを提案する。
論文 参考訳(メタデータ) (2024-10-22T16:18:41Z) - SecCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [47.11178028457252]
我々はGenAIのリスクをコードする統合的かつ包括的な評価プラットフォームSecCodePLTを開発した。
安全でないコードには、専門家と自動生成を組み合わせたデータ生成のための新しい方法論を導入する。
サイバー攻撃支援のために、我々はモデルに実際の攻撃を引き起こすよう促すサンプルと、我々の環境における動的な指標を構築した。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - Hacking, The Lazy Way: LLM Augmented Pentesting [0.0]
Pentest Copilot"というツールを使って"LLM Augmented Pentesting"をデモする
私たちの研究には、トークン使用の合理化とパフォーマンス向上のための"思考の連鎖"メカニズムが含まれています。
LLMがファイルの理解を可能にする新しいファイル解析手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T17:40:35Z) - Integration of cognitive tasks into artificial general intelligence test
for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文 参考訳(メタデータ) (2024-02-04T15:50:42Z) - Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。
セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文 参考訳(メタデータ) (2023-07-24T19:59:22Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2021-01-28T16:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。