論文の概要: Pentest-R1: Towards Autonomous Penetration Testing Reasoning Optimized via Two-Stage Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.07382v1
- Date: Sun, 10 Aug 2025 15:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.834684
- Title: Pentest-R1: Towards Autonomous Penetration Testing Reasoning Optimized via Two-Stage Reinforcement Learning
- Title(参考訳): Pentest-R1: 2段階強化学習を通じて最適化された自律浸透試験推論を目指して
- Authors: He Kong, Die Hu, Jingguo Ge, Liangxiong Li, Hui Li, Tong Li,
- Abstract要約: Pentest-R1は、侵入テストタスクの推論機能を最適化するために設計されたフレームワークである。
環境フィードバックから直接学習し、堅牢なエラー自己補正と適応戦略を開発する。
AutoPenBenchでは、Pentest-R1は24.2%の成功率に達し、ほとんどの最先端モデルを上回っている。
- 参考スコア(独自算出の注目度): 6.534445405422796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating penetration testing is crucial for enhancing cybersecurity, yet current Large Language Models (LLMs) face significant limitations in this domain, including poor error handling, inefficient reasoning, and an inability to perform complex end-to-end tasks autonomously. To address these challenges, we introduce Pentest-R1, a novel framework designed to optimize LLM reasoning capabilities for this task through a two-stage reinforcement learning pipeline. We first construct a dataset of over 500 real-world, multi-step walkthroughs, which Pentest-R1 leverages for offline reinforcement learning (RL) to instill foundational attack logic. Subsequently, the LLM is fine-tuned via online RL in an interactive Capture The Flag (CTF) environment, where it learns directly from environmental feedback to develop robust error self-correction and adaptive strategies. Our extensive experiments on the Cybench and AutoPenBench benchmarks demonstrate the framework's effectiveness. On AutoPenBench, Pentest-R1 achieves a 24.2\% success rate, surpassing most state-of-the-art models and ranking second only to Gemini 2.5 Flash. On Cybench, it attains a 15.0\% success rate in unguided tasks, establishing a new state-of-the-art for open-source LLMs and matching the performance of top proprietary models. Ablation studies confirm that the synergy of both training stages is critical to its success.
- Abstract(参考訳): サイバーセキュリティの強化には、侵入テストの自動化が不可欠だが、現在のLarge Language Models(LLM)は、エラー処理の貧弱さ、非効率な推論、複雑なエンドツーエンドタスクを自律的に実行できないことなど、この領域で重大な制限に直面している。
これらの課題に対処するために,2段階の強化学習パイプラインを通じてLLM推論能力を最適化する新しいフレームワークであるPentest-R1を紹介した。
我々はまず,Pentest-R1がオフライン強化学習(RL)に活用して基礎攻撃ロジックを組み込む,500以上の実世界のマルチステップウォークスルーのデータセットを構築した。
その後、LLMはインタラクティブなキャプチャー・ザ・フラッグ(CTF)環境でオンラインRLを介して微調整され、環境フィードバックから直接学習し、堅牢なエラー自己補正と適応戦略を開発する。
Cybench と AutoPenBench ベンチマークに関する広範な実験は,フレームワークの有効性を実証している。
AutoPenBenchでは、Pentest-R1が24.2\%の成功率を記録し、ほとんどの最先端モデルを超え、Gemini 2.5 Flashに次いでランキング2位となった。
Cybench では、オープンソースの LLM のための新しい最先端技術を確立し、トッププロプライエタリなモデルのパフォーマンスをマッチングすることで、未指導のタスクで 15.0 % の成功率を達成した。
アブレーション研究は、両方の訓練段階の相乗効果がその成功に不可欠であることを確認した。
関連論文リスト
- A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning [0.40964539027092906]
監督された微調整と強化学習が主要な訓練パラダイムである。
本稿では,オンライン推論から拡張SFTとRLを戦略的に統合する実践的で効果的なトレーニングレシピを提案する。
実験の結果,SFTを最大10時間拡張することは,パフォーマンスのブレークスルーに不可欠であることが判明した。
この研究は、コミュニティに最先端の数学的推論器を開発するための、テスト済みの青写真を提供する。
論文 参考訳(メタデータ) (2025-07-11T02:26:01Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.645427839457]
セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。
SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
論文 参考訳(メタデータ) (2025-04-27T08:45:06Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。