論文の概要: Systematic Capability Benchmarking of Frontier Large Language Models for Offensive Cyber Tasks
- arxiv url: http://arxiv.org/abs/2604.17159v1
- Date: Sat, 18 Apr 2026 22:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.365132
- Title: Systematic Capability Benchmarking of Frontier Large Language Models for Offensive Cyber Tasks
- Title(参考訳): 攻撃型サイバータスクのためのフロンティア大言語モデルの体系的能力ベンチマーク
- Authors: Tyler H. Merves, Michael H. Conaway, Joseph M. Escobar, Hakan T. Otal, Unal Tatar,
- Abstract要約: 我々は、NYU CTF Benchの200の課題すべてについて、7つのプロバイダから10のフロンティアモデルを評価する。
制御された因子分析により、Kali Linux環境はUbuntuよりも9.5パーセント向上していることがわかった。
モデルの中では、Claude 4.5 Opusが最も高い解決率(59%)を達成し、続いてGemini 3 Pro(52%)、そしてGemini 3 Flashは1ソルバあたり0.05ドルで最高のコスト効率を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present, to our knowledge, the most comprehensive cross-model evaluation of LLM agents on offensive cybersecurity tasks, benchmarking 10 frontier models from 7 providers on all 200 challenges of the NYU CTF Bench. Building on the D-CIPHER multi-agent framework, we extend it with multi-provider backend support, a custom Kali Linux environment with over 100 pre-installed penetration testing tools, and runtime tool-discovery agents. Through a controlled factorial study, we find that the Kali Linux environment yields a +9.5 percentage-point improvement over Ubuntu, while auto-prompting and category-specific tips often degrade performance in well-equipped environments. Among models, Claude 4.5 Opus achieves the highest solve rate (59%), followed by Gemini 3 Pro (52%), with Gemini 3 Flash offering the best cost-efficiency at $0.05 per solve. Asymmetric planner/executor model assignments provide no meaningful benefit while coherent same-model configurations consistently outperform mixed-tier pairings. Our results indicate that environment tooling and model selection emerge as the strongest drivers of performance, whereas prompt engineering interventions show diminishing or negative returns in well-equipped environments. Reported performance reflects both model reasoning ability and compatibility with agent tooling and API integration.
- Abstract(参考訳): 我々は、我々の知る限り、LLMエージェントの攻撃的なサイバーセキュリティタスクに関する最も包括的なクロスモデル評価を行い、NYU CTF Benchの200の課題すべてについて、7つのプロバイダから10のフロンティアモデルをベンチマークします。
D-CIPHERのマルチエージェントフレームワーク上に構築されており、マルチプロデューサのバックエンドサポート、100以上のインストール済み浸透テストツールを備えたカスタムのKali Linux環境、ランタイムツール発見エージェントで拡張しています。
制御された要因分析により、Kali Linux環境はUbuntuよりも+9.5パーセント向上し、オートプロンプティングやカテゴリ固有のチップは、よく装備された環境でパフォーマンスが劣化することがわかった。
モデルの中では、Claude 4.5 Opusが最も高い解決率(59%)を達成し、続いてGemini 3 Pro(52%)、そしてGemini 3 Flashは1ソルバあたり0.05ドルで最高のコスト効率を提供する。
非対称プランナー/実行モデル割り当ては有意義な利益をもたらすが、コヒーレントな同モデル構成は混合層ペアリングを一貫して上回る。
以上の結果から,環境ツールとモデル選択が性能最強の要因として出現するのに対し,迅速な工学的介入は,十分に装備された環境において低下または負のリターンを示すことが示唆された。
報告されたパフォーマンスは、モデル推論能力とエージェントツールとの互換性とAPI統合の両方を反映している。
関連論文リスト
- OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments [0.10934862523101825]
我々は,高忠実度強化学習環境におけるAIエージェントの訓練が,トレーニング分布を超えて一般化する能力を生み出すことを示す。
私たちは、Surge AIのエージェントRL環境スイートであるEnterpriseBenchの最初の環境であるCoreCraftを紹介します。
論文 参考訳(メタデータ) (2026-02-18T04:35:46Z) - AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts [35.52607495764441]
大規模言語モデル(LLM)に基づく自律エージェントは、経済的生産に大きく貢献する多面的能力を示す。
我々は、毎日のAI使用から派生したベンチマークであるAgentBenchを紹介し、32の現実シナリオにわたる6つのコアエージェント能力を評価した。
これらのシナリオでは、平均90のツールコール、100万のトークン、解決に必要な実行時間が必要です。
論文 参考訳(メタデータ) (2026-01-16T07:22:20Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。
xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-05T03:22:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。