論文の概要: Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios
- arxiv url: http://arxiv.org/abs/2603.11214v1
- Date: Wed, 11 Mar 2026 18:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.583839
- Title: Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios
- Title(参考訳): マルチステップサイバー攻撃シナリオにおけるAIエージェントの進展測定
- Authors: Linus Folkerts, Will Payne, Simon Inman, Philippos Giavridis, Joe Skinner, Sam Deverett, James Aung, Ekin Zorer, Michael Schmatz, Mahmoud Ghanem, John Wilkinson, Alan Steer, Vy Hong, Jessica Wang,
- Abstract要約: 我々は、フロンティアAIモデルの自律的サイバー攻撃能力を、2つの目的に構築されたサイバーレンジで評価する。
企業ネットワークの範囲では、平均10万のトークンで完了したステップが1.7から9.8に増加した。
産業制御システムの範囲では、性能は依然として限られているが、最新のモデルは確実に完成する最初の段階である。
- 参考スコア(独自算出の注目度): 0.8367204682154901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate the autonomous cyber-attack capabilities of frontier AI models on two purpose-built cyber ranges-a 32-step corporate network attack and a 7-step industrial control system attack-that require chaining heterogeneous capabilities across extended action sequences. By comparing seven models released over an eighteen-month period (August 2024 to February 2026) at varying inference-time compute budgets, we observe two capability trends. First, model performance scales log-linearly with inference-time compute, with no observed plateau-increasing from 10M to 100M tokens yields gains of up to 59%, requiring no specific technical sophistication from the operator. Second, each successive model generation outperforms its predecessor at fixed token budgets: on the corporate network range, average steps completed at 10M tokens rose from 1.7 (GPT-4o, August 2024) to 9.8 (Opus 4.6, February 2026). The best single run completed 22 of 32 steps, corresponding to roughly 6 of the estimated 14 hours a human expert would need. On the industrial control system range, performance remains limited, though the most recent models are the first to reliably complete steps, averaging 1.2-1.4 of 7 (max 3).
- Abstract(参考訳): 我々は、フロンティアAIモデルの自律的サイバー攻撃能力を、32ステップの企業ネットワークアタックと7ステップの産業制御システムアタックという、2つの目的に構築されたサイバーレンジで評価する。
18カ月間(2024年8月~2026年2月)に異なる予測時間計算予算でリリースされた7つのモデルを比較して,2つの機能動向を観察した。
第一に、モデル性能は推論時間計算と対数的にスケールし、観測された10Mから100Mトークンのプラトー増加は最大59%の利得となり、演算子からの具体的な技術的洗練は不要である。
第2に、それぞれの連続したモデル生成は、固定トークン予算において前者よりも優れており、企業ネットワークの範囲では、1.7(GPT-4o、2024年8月)から9.8(Opus 4.6、2026年2月)まで10Mトークンで完了した平均ステップが上昇している。
ベストシングルランは32ステップ中22ステップで、人間の専門家が必要とする14時間のうち6時間に相当する。
産業制御システムの範囲では、性能は制限されているが、最も最近のモデルは信頼性の高い完成段階であり、平均して7 (max 3) の1.2-1.4である。
関連論文リスト
- LLMOrbit: A Circular Taxonomy of Large Language Models -From Scaling Walls to Agentic AI Systems [3.183924309596046]
この調査では、8つの相互接続軌道次元を通して、15の組織にわたる50以上のモデルを調査した。
1)データ不足(2026-2028年までに減少する9-27Tトークン)、(2)指数的なコスト増加(5年間で3M~3M+)、(3)持続不可能なエネルギー消費(22倍)の3つの重大な危機を識別する。
トレーニング後ゲイン(RLHF, GRPO, pure RL)、DeepSeek-R1(79.8% MATH)、効率革命(MoEルーティング18x効率、マルチヘッド遅延注意8xKVキャッシュ圧縮)により、GPT-4レベルのパフォーマンスを$で実現している。
論文 参考訳(メタデータ) (2026-01-20T15:06:19Z) - PRIME: Policy-Reinforced Iterative Multi-agent Execution for Algorithmic Reasoning in Large Language Models [5.598141218271656]
大規模言語モデルは様々な推論タスクにまたがって顕著な能力を示してきたが、アルゴリズム的推論のパフォーマンスは依然として限られている。
本稿では,3つの専門エージェントからなるフレームワークPRIME,ステップバイステップ推論のエグゼキュータ,制約チェックの検証器,バックトラック制御のコーディネータを提案する。
これまでで最大のアルゴリズム推論ベンチマークであるPRIME-Benchを導入し,12のカテゴリにわたる86のタスクと51,600のインスタンスを比較検討した。
論文 参考訳(メタデータ) (2026-01-19T07:57:01Z) - STEP3-VL-10B Technical Report [115.89015065130127]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。
そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。
MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文 参考訳(メタデータ) (2026-01-14T17:58:24Z) - Efficient Multi-Model Orchestration for Self-Hosted Large Language Models [2.3275796286410677]
Pick and Spinは、セルフホストのオーケストレーションと経済性を実現するフレームワークである。
統合されたHelmベースのデプロイメントシステム、適応型スケールツーゼロ自動化、ハイブリッドルーティングモジュールを統合している。
最大21.6%の成功率、30%のレイテンシ、クエリ毎のコストの33%削減を実現している。
論文 参考訳(メタデータ) (2025-12-26T22:42:40Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - AIRTBench: Measuring Autonomous AI Red Teaming Capabilities in Language Models [0.0]
AIRTBenchは、AI/MLのセキュリティ脆弱性を自律的に発見し、悪用する言語モデルの能力を評価するための、AIレッドチームベンチマークである。
このベンチマークは、Dreadnodeプラットフォーム上のCrucibleチャレンジ環境から70の現実的なブラックボックスキャプチャー・ザ・フラッグ(CTF)チャレンジで構成されている。
論文 参考訳(メタデータ) (2025-06-17T16:19:06Z) - Trends in Frontier AI Model Count: A Forecast to 2028 [3.79830302036482]
政府は、AIモデルのトレーニングにどれだけの計算が使われたかに基づいて、AIモデルに要件を課し始めている。
2028年末までに103-306のファンデーションモデルが1025ドルのFLOP閾値を超えると見積もっている。
また、これらの絶対計算しきい値を超えるモデル数が、超直線的に増加することもわかっています。
論文 参考訳(メタデータ) (2025-04-21T22:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。