Fugu-MT 論文翻訳(概要): CIPHER: Cybersecurity Intelligent Penetration-testing Helper for Ethical Researcher

論文の概要: CIPHER: Cybersecurity Intelligent Penetration-testing Helper for Ethical Researcher

arxiv url: http://arxiv.org/abs/2408.11650v1
Date: Wed, 21 Aug 2024 14:24:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 16:47:35.142817
Title: CIPHER: Cybersecurity Intelligent Penetration-testing Helper for Ethical Researcher
Title（参考訳）: CIPHER: サイバーセキュリティのインテリジェントな侵入テスト支援者
Authors: Derry Pratama, Naufal Suryanto, Andro Aprila Adiputra, Thi-Thu-Huong Le, Ahmada Yusril Kadiptya, Muhammad Iqbal, Howon Kim,
Abstract要約: 本研究は,Cybersecurity Intelligent Peretration-testing Helper for Ethical researchers (CIPHER)を開発した。私たちは、脆弱なマシンの300以上の高品質な書き込み、ハッキングテクニック、オープンソースの侵入テストツールのドキュメントを使用してCIPHERをトレーニングしました。本研究では,完全自動ペンテスティング・シミュレーション・ベンチマークを確立するために,書込みテストの拡張手法であるFinderings, Action, Reasoning, Results (FARR) Flow Augmentationを紹介する。
参考スコア（独自算出の注目度）: 1.6652242654250329
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Penetration testing, a critical component of cybersecurity, typically requires extensive time and effort to find vulnerabilities. Beginners in this field often benefit from collaborative approaches with the community or experts. To address this, we develop CIPHER (Cybersecurity Intelligent Penetration-testing Helper for Ethical Researchers), a large language model specifically trained to assist in penetration testing tasks. We trained CIPHER using over 300 high-quality write-ups of vulnerable machines, hacking techniques, and documentation of open-source penetration testing tools. Additionally, we introduced the Findings, Action, Reasoning, and Results (FARR) Flow augmentation, a novel method to augment penetration testing write-ups to establish a fully automated pentesting simulation benchmark tailored for large language models. This approach fills a significant gap in traditional cybersecurity Q\&A benchmarks and provides a realistic and rigorous standard for evaluating AI's technical knowledge, reasoning capabilities, and practical utility in dynamic penetration testing scenarios. In our assessments, CIPHER achieved the best overall performance in providing accurate suggestion responses compared to other open-source penetration testing models of similar size and even larger state-of-the-art models like Llama 3 70B and Qwen1.5 72B Chat, particularly on insane difficulty machine setups. This demonstrates that the current capabilities of general LLMs are insufficient for effectively guiding users through the penetration testing process. We also discuss the potential for improvement through scaling and the development of better benchmarks using FARR Flow augmentation results. Our benchmark will be released publicly at https://github.com/ibndias/CIPHER.
Abstract（参考訳）: サイバーセキュリティの重要なコンポーネントである浸透テストは、脆弱性を見つけるのに広範囲な時間と労力を必要とする。この分野のベジニアは、しばしばコミュニティや専門家との協力的なアプローチの恩恵を受ける。そこで我々はCIPHER(Cybersecurity Intelligent Peretration-testing Helper for Ethical researchers)を開発した。私たちは、脆弱なマシンの300以上の高品質な書き込み、ハッキングテクニック、オープンソースの侵入テストツールのドキュメントを使用してCIPHERをトレーニングしました。さらに我々は,大規模な言語モデルに適した完全自動ペンテスティングシミュレーションベンチマークを確立するために,インテグレーション・アクション・推論・結果(FARR)フロー拡張(en:Fundings, Action, Reasoning, results)を導入した。このアプローチは、従来のサイバーセキュリティのQ\&Aベンチマークにおける大きなギャップを埋め、AIの技術知識、推論能力、動的侵入テストシナリオにおける実用性を評価するための、現実的で厳格な標準を提供する。我々の評価では、CIPHERは、Llama 3 70BやQwen1.5 72B Chatのような、同じ大きさの他のオープンソース浸透試験モデルや、さらに大きな最先端モデルと比較して、正確な提案応答を提供することで、最高の全体的なパフォーマンスを達成しました。このことは、汎用LLMの現在の能力が、侵入テストプロセスを通じてユーザを効果的に導くのに不十分であることを示している。また、スケーリングによる改善の可能性や、FARR Flow Augmentationの結果を用いたより良いベンチマークの開発についても論じる。私たちのベンチマークはhttps://github.com/ibndias/CIPHER.comで公開されます。

関連論文リスト

Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文参考訳（メタデータ） (2026-02-04T06:30:40Z)
The Role of AI in Modern Penetration Testing [0.0]
侵入テストはサイバーセキュリティの基礎であり、伝統的に手動の時間集約的なプロセスによって駆動される。この体系的な文献レビューは、人工知能(AI)が浸透試験をどう変えているかを検証している。
論文参考訳（メタデータ） (2025-12-13T13:34:31Z)
MIRAGE: Misleading Retrieval-Augmented Generation via Black-box and Query-agnostic Poisoning Attacks [47.46936341268548]
Retrieval-Augmented Generation (RAG)システムでは、コーパス中毒という致命的な攻撃面が導入されている。我々は,厳格なブラックボックスとクエリ非依存環境のために設計された,新しい多段階毒素パイプラインであるMIRAGEを提案する。大規模な実験により、MIRAGEは攻撃効果とステルスネスの両方において既存のベースラインを著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-12-09T06:38:16Z)
SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文参考訳（メタデータ） (2025-11-29T09:18:39Z)
White-Basilisk: A Hybrid Model for Code Vulnerability Detection [50.49233187721795]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。 White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文参考訳（メタデータ） (2025-07-11T12:39:25Z)
Expert-in-the-Loop Systems with Cross-Domain and In-Domain Few-Shot Learning for Software Vulnerability Detection [38.083049237330826]
本研究では,CWE(Common Weaknessions)を用いたPythonコードの識別をシミュレーションすることにより,ソフトウェア脆弱性評価におけるLLM(Large Language Models)の利用について検討する。その結果,ゼロショットプロンプトは性能が低いが,少数ショットプロンプトは分類性能を著しく向上させることがわかった。モデル信頼性、解釈可能性、敵の堅牢性といった課題は、将来の研究にとって重要な領域のままである。
論文参考訳（メタデータ） (2025-06-11T18:43:51Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文参考訳（メタデータ） (2025-02-18T02:26:50Z)
VulnBot: Autonomous Penetration Testing for A Multi-Agent Collaborative Framework [4.802551205178858]
既存の大規模言語モデル(LLM)を支援または自動化した浸透テストアプローチは、しばしば非効率に悩まされる。 VulnBotは複雑なタスクを、偵察、スキャン、エクスプロイトという3つの特別なフェーズに分割する。主なデザインの特徴は、役割の専門化、侵入経路計画、エージェント間コミュニケーション、生成的侵入行動である。
論文参考訳（メタデータ） (2025-01-23T06:33:05Z)
PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文参考訳（メタデータ） (2024-11-07T21:10:39Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements [1.4433703131122861]
大規模言語モデル(LLM)は、サイバーセキュリティなど、さまざまな分野に可能性を示している。現在、包括的で、オープンで、エンドツーエンドの自動浸透テストベンチマークはありません。本稿では,LLMを用いた自動貫入試験のための新しいオープンベンチマークを提案する。
論文参考訳（メタデータ） (2024-10-22T16:18:41Z)
SecCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [47.11178028457252]
我々はGenAIのリスクをコードする統合的かつ包括的な評価プラットフォームSecCodePLTを開発した。安全でないコードには、専門家と自動生成を組み合わせたデータ生成のための新しい方法論を導入する。サイバー攻撃支援のために、我々はモデルに実際の攻撃を引き起こすよう促すサンプルと、我々の環境における動的な指標を構築した。
論文参考訳（メタデータ） (2024-10-14T21:17:22Z)
Hacking, The Lazy Way: LLM Augmented Pentesting [0.0]
Pentest Copilot"というツールを使って"LLM Augmented Pentesting"をデモする私たちの研究には、トークン使用の合理化とパフォーマンス向上のための"思考の連鎖"メカニズムが含まれています。 LLMがファイルの理解を可能にする新しいファイル解析手法を提案する。
論文参考訳（メタデータ） (2024-09-14T17:40:35Z)
Integration of cognitive tasks into artificial general intelligence test for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文参考訳（メタデータ） (2024-02-04T15:50:42Z)
LLbezpeky: Leveraging Large Language Models for Vulnerability Detection [10.330063887545398]
大規模言語モデル(LLM)は、人やプログラミング言語におけるセムナティクスを理解する大きな可能性を示している。私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
論文参考訳（メタデータ） (2024-01-02T16:14:30Z)
Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文参考訳（メタデータ） (2023-07-24T19:59:22Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文参考訳（メタデータ） (2022-03-25T19:57:19Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)
Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文参考訳（メタデータ） (2021-01-28T16:38:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。