論文の概要: PentestJudge: Judging Agent Behavior Against Operational Requirements
- arxiv url: http://arxiv.org/abs/2508.02921v1
- Date: Mon, 04 Aug 2025 21:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.695338
- Title: PentestJudge: Judging Agent Behavior Against Operational Requirements
- Title(参考訳): PentestJudge: 運用要件に対するエージェント行動の判断
- Authors: Shane Caldwell, Max Harley, Michael Kouremetis, Vincent Abruzzo, Will Pearce,
- Abstract要約: PentestJudgeは、侵入テストエージェントの操作を評価するシステムである。
判定エージェントとして機能するモデルをいくつか評価し、最良のモデルがF1スコア0.83まで到達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce PentestJudge, a system for evaluating the operations of penetration testing agents. PentestJudge is a large language model (LLM)-as-judge with access to tools that allow it to consume arbitrary trajectories of agent states and tool call history to determine whether a security agent's actions meet certain operating criteria that would be impractical to evaluate programmatically. We develop rubrics that use a tree structure to hierarchically collapse the penetration testing task for a particular environment into smaller, simpler, and more manageable sub-tasks and criteria until each leaf node represents simple yes-or-no criteria for PentestJudge to evaluate. Task nodes are broken down into different categories related to operational objectives, operational security, and tradecraft. LLM-as-judge scores are compared to human domain experts as a ground-truth reference, allowing us to compare their relative performance with standard binary classification metrics, such as F1 scores. We evaluate several frontier and open-source models acting as judge agents, with the best model reaching an F1 score of 0.83. We find models that are better at tool-use perform more closely to human experts. By stratifying the F1 scores by requirement type, we find even models with similar overall scores struggle with different types of questions, suggesting certain models may be better judges of particular operating criteria. We find that weaker and cheaper models can judge the trajectories of pentests performed by stronger and more expensive models, suggesting verification may be easier than generation for the penetration testing task. We share this methodology to facilitate future research in understanding the ability of judges to holistically and scalably evaluate the process quality of AI-based information security agents so that they may be confidently used in sensitive production environments.
- Abstract(参考訳): 浸透試験エージェントの操作を評価するシステムであるPentestJudgeを紹介する。
PentestJudgeは、エージェント状態の任意のトラジェクトリとツールコール履歴を使用でき、セキュリティエージェントのアクションがプログラム的に評価できない特定の操作基準を満たすかどうかを判断できるツールを備えた、大きな言語モデル(LLM)アズ・ジャッジである。
我々は,木構造を用いて,特定の環境の浸透試験タスクを階層的に,より小さく,よりシンプルで,管理しやすいサブタスクと基準に分解し,各葉ノードがPentestJudgeの単純なイエス・ノー基準を示すまで,基準を策定する。
タスクノードは、運用上の目的、運用上のセキュリティ、およびトレードクラフトに関連する、さまざまなカテゴリに分割される。
LLM-as-judgeスコアは、F1スコアなどの標準的なバイナリ分類指標と相対的な性能を比較することができる。
判定エージェントとして機能するいくつかのフロンティアモデルとオープンソースモデルを評価し、最良のモデルがF1スコア0.83に達した。
ツールの使い勝手のよいモデルが、人間のエキスパートとより密接な関係にあることが分かりました。
F1スコアを要件タイプで階層化することで、同様のスコアを持つモデルでも、異なるタイプの疑問に苦しむことを見つけ、特定の操作基準を判断する上で、特定のモデルの方が優れていることを示唆する。
より弱い、より安価なモデルでは、より強力で高価なモデルによって行われるペンテストの軌跡を判断でき、この検証は、侵入テストタスクの生成よりも容易である可能性が示唆されている。
我々は、AIベースの情報セキュリティエージェントのプロセス品質を全体的かつ精査的に評価し、センシティブな生産環境で確実に使用できるように、将来の研究を促進するために、この方法論を共有します。
関連論文リスト
- Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。
我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。
以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文 参考訳(メタデータ) (2025-05-28T12:03:09Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - Benchmark Early and Red Team Often: A Framework for Assessing and Managing Dual-Use Hazards of AI Foundation Models [0.2383122657918106]
最先端または「最先端」のAI基盤モデルに対する懸念は、敵が化学、生物学的、放射線学的、核、サイバー、その他の攻撃に備えるためにモデルを使用する可能性があることである。
少なくとも2つの手法は、潜在的な二重利用能力を持つ基礎モデルを特定することができる。
オープンベンチマークとクローズドレッドチーム評価の両方を含む手法を組み合わせた研究・リスク管理手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T20:28:15Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Evaluating the Evaluators: Are Current Few-Shot Learning Benchmarks Fit
for Purpose? [11.451691772914055]
本稿では,タスクレベル評価に関する最初の研究について述べる。
数ショット設定における性能推定器の精度を測定した。
評価者の失敗の理由を, 多くの場合, 頑健であると考えられる理由について検討する。
論文 参考訳(メタデータ) (2023-07-06T02:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。