論文の概要: Towards Optimal Agentic Architectures for Offensive Security Tasks
- arxiv url: http://arxiv.org/abs/2604.18718v1
- Date: Mon, 20 Apr 2026 18:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.412698
- Title: Towards Optimal Agentic Architectures for Offensive Security Tasks
- Title(参考訳): 攻撃的セキュリティタスクのための最適なエージェントアーキテクチャを目指して
- Authors: Isaac David, Arthur Gervais,
- Abstract要約: 20のインタラクティブなターゲット(Web/API10とバイナリ10)のベンチマークを導入する。
それぞれ、ホワイトボックスとブラックボックスモードで評価された、ワンリーチ可能な地上真実の脆弱性を露呈する。
MAS-Indepは最も高い検出率(64.2%)を獲得し、SASは最も高い効率のベースラインである0.058ドルである。
- 参考スコア(独自算出の注目度): 3.93181912653522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic security systems increasingly audit live targets with tool-using LLMs, but prior systems fix a single coordination topology, leaving unclear when additional agents help and when they only add cost. We treat topology choice as an empirical systems question. We introduce a controlled benchmark of 20 interactive targets (10 web/API and 10 binary), each exposing one endpoint-reachable ground-truth vulnerability, evaluated in whitebox and blackbox modes. The core study executes 600 runs over five architecture families, three model families, and both access modes, with a separate 60-run long-context pilot reported only in the appendix. On the completed core benchmark, detection-any reaches 58.0% and validated detection reaches 49.8%. MAS-Indep attains the highest validated detection rate (64.2%), while SAS is the strongest efficiency baseline at $0.058 per validated finding. Whitebox materially outperforms blackbox (67.0% vs. 32.7% validated detection), and web materially outperforms binary (74.3% vs. 25.3%). Bootstrap confidence intervals and paired target-level deltas show that the dominant effects are observability and domain, while some leading whitebox topologies remain statistically close. The main result is a non-monotonic cost-quality frontier: broader coordination can improve coverage, but it does not dominate once latency, token cost, and exploit-validation difficulty are taken into account.
- Abstract(参考訳): エージェントセキュリティシステムは、ツールを使用するLLMを使用してライブターゲットを監査する傾向にあるが、以前のシステムは単一の調整トポロジを修正しており、追加エージェントがいつ助けられるか、いつ追加されるかは明らかになっていない。
トポロジーの選択を経験的システム問題として扱う。
我々は、20の対話的ターゲット(Web/APIと10のバイナリ)の制御されたベンチマークを導入し、それぞれが、ホワイトボックスモードとブラックボックスモードで評価された1つのエンドポイントに到達可能なグランドトラス脆弱性を公開する。
コアスタディでは,5つのアーキテクチャファミリ,3つのモデルファミリ,および2つのアクセスモードで600回の実行を実行している。
完成したコアベンチマークでは、検出アニーは58.0%に達し、検証された検出は49.8%に達した。
MAS-Indepは最も高い検出率(64.2%)を獲得し、SASは最も高い効率のベースラインである0.058ドルである。
ホワイトボックスはブラックボックス (67.0% vs. 32.7%) を上回り、ウェブはバイナリ (74.3% vs. 25.3%) を上回ります。
ブートストラップの信頼区間と対のターゲットレベルのデルタは、主要な効果は観測可能性と領域であり、主要なホワイトボックスのトポロジーは統計的に近接している。
より広範な調整はカバレッジを改善することができるが、一度のレイテンシ、トークンコスト、エクスプロイト-バリデーションの困難を考慮すると、それは支配的ではない。
関連論文リスト
- Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Belief Dynamics for Detecting Behavioral Shifts in Safe Collaborative Manipulation [3.198214897627444]
ManiSkill共有ワークスペース操作タスクにおいて、制御された非定常性の下でのシステマティックスウィッチ検出について検討する。
10つの検出方法と5つのランダムなシードによって、検出が可能になったことにより、スウィッチ後の衝突が52%減少する。
UA-TOMは、凍結した視覚-言語-行動制御バックボーンを増強する軽量な信念追跡モジュールである。
論文 参考訳(メタデータ) (2026-04-04T02:41:09Z) - AWE: Adaptive Agents for Dynamic Web Penetration Testing [0.0]
AWEは、自動Web侵入テストのためのメモリ拡張マルチエージェントフレームワークである。
軽量なLLMオーケストレーション層に、構造化された脆弱性固有の分析パイプラインを組み込む。
AWEはインジェクションクラスの脆弱性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-03-01T07:32:42Z) - Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters [169.7981969517903]
Step 3.5 Flashは、フロンティアレベルのエージェントインテリジェンスと計算効率を橋渡しする。
エージェントを構築する上で最も重要なもの、すなわち、シャープな推論と高速で信頼性の高い実行に重点を置いています。
論文 参考訳(メタデータ) (2026-02-11T07:53:51Z) - Multi-Agent LLM Committees for Autonomous Software Beta Testing [0.0]
このフレームワークは、モデルの多様性、ペルソナ駆動の振る舞いの変化、視覚的ユーザインターフェイスの理解を組み合わせたものだ。
視覚対応エージェントは、ナビゲーションとレポートによってユーザインターフェース要素を100%成功させることに成功した。
このフレームワークは、CI/CDパイプラインにおけるLLMベースのソフトウェアテストの再現可能な研究と実践的な展開を可能にする。
論文 参考訳(メタデータ) (2025-12-21T02:06:53Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training [0.0]
本研究は、衛星土地利用分類のための独自の畳み込みニューラルネットワークアーキテクチャを体系的に研究する。
事前訓練されたモデルに依存することなく、EuroSATデータセット上で97.23%のテスト精度を達成する。
我々の手法は、外部データを必要としない微調整されたResNet-50(98.57%)の1.34%で性能を達成する。
論文 参考訳(メタデータ) (2025-10-17T10:59:24Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Multi-Agent Penetration Testing AI for the Web [3.93181912653522]
MAPTAは、自動Webアプリケーションセキュリティアセスメントのためのマルチエージェントシステムである。
大規模な言語モデルのオーケストレーションとツール地上実行とエンドツーエンドのエクスプロイトバリデーションを組み合わせたものだ。
104Challenge XBOWベンチマークでは、MAPTAは76.9%の成功を収めた。
論文 参考訳(メタデータ) (2025-08-28T14:14:24Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。