論文の概要: Post-Training Local LLM Agents for Linux Privilege Escalation with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2603.17673v1
- Date: Wed, 18 Mar 2026 12:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.696398
- Title: Post-Training Local LLM Agents for Linux Privilege Escalation with Verifiable Rewards
- Title(参考訳): Linuxプリビレージエスカレーションのための評価後ローカルLSMエージェントの検証
- Authors: Philipp Normann, Andreas Happe, Jürgen Cito, Daniel Arp,
- Abstract要約: LLMエージェントは、脆弱性発見のような研究領域にますます関係している。
しかし、最強のシステムは依然としてクローズドでクラウドのみであり、リソース集約的で再現が難しく、プロプライエタリなコードや機密データに関わる作業には適さない。
本稿では,厳格な資源予算の下でセキュリティタスクを実行できる,小規模でローカルなモデルを開発するための2段階のポストトレーニングパイプラインを提案する。
- 参考スコア(独自算出の注目度): 2.631069233394708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents are increasingly relevant to research domains such as vulnerability discovery. Yet, the strongest systems remain closed and cloud-only, making them resource-intensive, difficult to reproduce, and unsuitable for work involving proprietary code or sensitive data. Consequently, there is an urgent need for small, local models that can perform security tasks under strict resource budgets, but methods for developing them remain underexplored. In this paper, we address this gap by proposing a two-stage post-training pipeline. We focus on the problem of Linux privilege escalation, where success is automatically verifiable and the task requires multi-step interactive reasoning. Using an experimental setup that prevents data leakage, we post-train a 4B model in two stages: supervised fine-tuning on traces from procedurally generated privilege-escalation environments, followed by reinforcement learning with verifiable rewards. On a held-out benchmark of 12 Linux privilege-escalation scenarios, supervised fine-tuning alone more than doubles the baseline success rate at 20 rounds, and reinforcement learning further lifts our resulting model, PrivEsc-LLM, to 95.8%, nearly matching Claude Opus 4.6 at 97.5%. At the same time, the expected inference cost per successful escalation is reduced by over 100x.
- Abstract(参考訳): LLMエージェントは、脆弱性発見のような研究領域にますます関係している。
しかし、最強のシステムは依然としてクローズドでクラウドのみであり、リソース集約的で再現が難しく、プロプライエタリなコードや機密データに関わる作業には適さない。
その結果、厳格なリソース予算の下でセキュリティタスクを実行できる小さなローカルモデルが緊急に必要となるが、それらを開発する方法はまだ未検討のままである。
本稿では,2段階のポストトレーニングパイプラインの提案により,このギャップに対処する。
我々は、成功が自動的に検証され、タスクは多段階の対話的推論を必要とするLinux特権エスカレーションの問題に焦点を当てる。
データ漏洩を防止するための実験装置を用いて、手続き的に生成された特権エスカレーション環境からの痕跡を教師付き微調整し、4Bモデルを2段階の訓練後、検証可能な報酬付き強化学習を行う。
12のLinux特権エスカレーションシナリオのベンチマークでは、教師付き微調整だけで20ラウンドでベースライン成功率を2倍以上にし、強化学習により、結果モデルであるPrivEsc-LLMを95.8%まで引き上げ、Clude Opus 4.6と97.5%にほぼ一致するようにした。
同時に、成功エスカレーション当たりの予測推論コストを100倍以上に削減する。
関連論文リスト
- AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis [19.899469614370478]
大規模言語モデル(LLM)エージェントは、SRE(Site Reliability Engineering)を自動化するための有望なデータ駆動型アプローチを提供する
本稿では,セキュリティ制約下での構造化軌道学習問題として,自動操作を定式化したトレーニング可能なマルチエージェントフレームワークAOIを提案する。
論文 参考訳(メタデータ) (2026-03-03T02:57:33Z) - Language-based Trial and Error Falls Behind in the Era of Experience [50.503828360874536]
大きな言語モデル(LLM)は、言語ベースのエージェントタスクでは優れているが、見つからない非言語環境への適用性は依然として限られている。
本研究では,探索の禁止コストが主なボトルネックであることを示す。
セマンティック・エクスプロイトから探索を分離する新しいフレームワークであるSCOUTを提案する。
論文 参考訳(メタデータ) (2026-01-29T14:08:41Z) - Enhancing reliability in AI inference services: An empirical study on real production incidents [6.549475714716768]
本稿では,大規模言語モデル(LLM)推論インシデントに関する最初のプロバイダ間,実践ベースの分析手法を提案する。
我々は1年間の運用経験に基づく分類と方法論を開発し、156件の高重度事象を検証した。
本研究は,推論操作の系統的,経験的基礎解析が,大規模で信頼性が高く,コスト効率のよいLLMサービスを実現する方法を示す。
論文 参考訳(メタデータ) (2025-10-17T23:16:29Z) - Autonomous Penetration Testing: Solving Capture-the-Flag Challenges with LLMs [0.0]
本研究は,OverTheWireのBanditキャプチャ・ザ・フラッグゲームにモデルを接続することにより,GPT-4oが初心者レベルの攻撃的セキュリティタスクを自律的に解く能力を評価する。
技術的に単一コマンドSSHフレームワークと互換性のある25のレベルのうち、GPT-4oは18の無効化と、全体の80%の成功率を示す最小のプロンプトのヒントの後に2のレベルを解決した。
論文 参考訳(メタデータ) (2025-08-01T20:11:58Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage [78.33839735526769]
LeakAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
我々のフレームワークは、敵のプロンプトを生成するための攻撃エージェントとして強化学習を通じてオープンソースのLLMを訓練する。
我々は,LeakAgentが既存のルールベースのデータ抽出手法と,システムリーク時の自動手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-07T20:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。