論文の概要: Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models
- arxiv url: http://arxiv.org/abs/2408.08926v1
- Date: Thu, 15 Aug 2024 17:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 23:26:14.983326
- Title: Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models
- Title(参考訳): Cybench: サイバーセキュリティ能力の評価と言語モデルのリスク
- Authors: Andy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang,
- Abstract要約: Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。
4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。
GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。
- 参考スコア(独自算出の注目度): 33.1538965735133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Model (LM) agents for cybersecurity that are capable of autonomously identifying vulnerabilities and executing exploits have the potential to cause real-world impact. Policymakers, model providers, and other researchers in the AI and cybersecurity communities are interested in quantifying the capabilities of such agents to help mitigate cyberrisk and investigate opportunities for penetration testing. Toward that end, we introduce Cybench, a framework for specifying cybersecurity tasks and evaluating agents on those tasks. We include 40 professional-level Capture the Flag (CTF) tasks from 4 distinct CTF competitions, chosen to be recent, meaningful, and spanning a wide range of difficulties. Each task includes its own description, starter files, and is initialized in an environment where an agent can execute bash commands and observe outputs. Since many tasks are beyond the capabilities of existing LM agents, we introduce subtasks, which break down a task into intermediary steps for more gradated evaluation; we add subtasks for 17 of the 40 tasks. To evaluate agent capabilities, we construct a cybersecurity agent and evaluate 7 models: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, and Llama 3.1 405B Instruct. Without guidance, we find that agents are able to solve only the easiest complete tasks that took human teams up to 11 minutes to solve, with Claude 3.5 Sonnet and GPT-4o having the highest success rates. Finally, subtasks provide more signal for measuring performance compared to unguided runs, with models achieving a 3.2\% higher success rate on complete tasks with subtask-guidance than without subtask-guidance. All code and data are publicly available at https://cybench.github.io
- Abstract(参考訳): 脆弱性を自律的に識別し、エクスプロイトを実行するサイバーセキュリティのための言語モデル(LM)エージェントは、現実世界に影響を及ぼす可能性がある。
政策立案者、モデル提供者、AIおよびサイバーセキュリティコミュニティの他の研究者は、サイバーリスクを軽減し、侵入テストの機会を調べるためにそのようなエージェントの能力を定量化することに興味を持っている。
そこで,サイバーセキュリティタスクの特定と,それらのタスクに対するエージェント評価のためのフレームワークであるCybenchを紹介する。
4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。
各タスクは独自の記述、スターターファイルを含み、エージェントがbashコマンドを実行して出力を観察できる環境で初期化される。
多くのタスクは既存のLMエージェントの能力を超えるため、タスクを中間的なステップに分解してより段階的な評価を行うサブタスクを導入し、40タスクのうち17タスクにサブタスクを追加します。
GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。
ガイダンスなしでは、人間チームが解くのに最大11分もかからない最も簡単なタスクしか解決できないことがわかりました。
最後に、サブタスクは、サブタスクガイダンスのない場合よりも、サブタスクガイダンスを持つタスクで3.2\%の成功率を達成するモデルである。
すべてのコードとデータはhttps://cybench.github.ioで公開されている。
関連論文リスト
- CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [52.83132876539399]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果, GPT-4oの単剤は35。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
QuadrupedGPTは、幅広い複雑なタスクを、ペットに匹敵する俊敏性でマスターするように設計された汎用エージェントである。
我々のエージェントは、大規模マルチモーダルモデル(LMM)を用いて、人間の命令と環境コンテキストを処理する。
長期的な目標を実行可能なサブゴールのシーケンスに分解できる問題解決機能を備えている。
論文 参考訳(メタデータ) (2024-06-24T12:14:24Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
高度な推論能力を持つ大規模言語モデル(LLM)は、エージェントがより複雑で以前は目に見えないタスクをこなすためのステージを定めている。
環境認識のためのスクリーンショットのみに基づいて機能するエージェントを提案する。
67種類のMiniWoB++問題に対して94.4%の成功率を達成した。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Dynamic LLM-Agent Network: An LLM-agent Collaboration Framework with
Agent Team Optimization [59.39113350538332]
大規模言語モデル(LLM)エージェントは幅広いタスクで有効であることが示されており、複数のLLMエージェントを組み込むことで、その性能をさらに向上することができる。
既存のアプローチでは、固定されたエージェントセットを使用して静的アーキテクチャで相互に相互作用する。
我々は、推論やコード生成といった複雑なタスクにおいて、LLM-agentコラボレーションのためにDynamic LLM-Agent Network(textbfDyLAN$)というフレームワークを構築します。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - AgentSims: An Open-Source Sandbox for Large Language Model Evaluation [9.156652770482268]
既存の評価手法は,(1)制約付き評価能力,(2)脆弱なベンチマーク,(3)客観的な指標などの欠点に悩まされている。
LLMエージェントがシミュレーション環境でタスクを完了させるタスクベース評価は、上記の問題を解決するための一対一のソリューションである。
AgentSimsは、あらゆる分野の研究者が興味のある特定の能力をテストするための、使いやすいインフラだ。
論文 参考訳(メタデータ) (2023-08-08T03:59:28Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。