Fugu-MT 論文翻訳(概要): DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments

論文の概要: DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments

arxiv url: http://arxiv.org/abs/2506.00739v2
Date: Tue, 10 Jun 2025 17:00:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:40.156724
Title: DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments
Title（参考訳）: DefenderBench: サイバーセキュリティ環境で言語エージェントを評価するツールキット
Authors: Chiyu Zhang, Marc-Alexandre Cote, Michael Albada, Anush Sankaran, Jack W. Stokes, Tong Wang, Amir Abdi, William Blum, Muhammad Abdul-Mageed,
Abstract要約: DefenderBenchは、犯罪、防衛、サイバーセキュリティ知識に基づくタスクに対して言語エージェントを評価するための実用的でオープンソースのツールキットである。研究者にとって手頃で手頃な価格で手軽に利用でき、公正で厳格な評価を提供するように設計されている。以上の結果から,Claude-3.7-sonnetが81.65点,Claude-3.7-sonnetが78.40点,Llama 3.3 70Bが71.81点,Claude-3.7-sonnetが71.81点,Claude-3.7-sonnetが最高性能を示した。
参考スコア（独自算出の注目度）: 23.385693936485158
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language model (LLM) agents have shown impressive capabilities in human language comprehension and reasoning, yet their potential in cybersecurity remains underexplored. We introduce DefenderBench, a practical, open-source toolkit for evaluating language agents across offense, defense, and cybersecurity knowledge-based tasks. DefenderBench includes environments for network intrusion, malicious content detection, code vulnerability analysis, and cybersecurity knowledge assessment. It is intentionally designed to be affordable and easily accessible for researchers while providing fair and rigorous assessment. We benchmark several state-of-the-art (SoTA) and popular LLMs, including both open- and closed-weight models, using a standardized agentic framework. Our results show that Claude-3.7-sonnet performs best with a DefenderBench score of 81.65, followed by Claude-3.7-sonnet-think with 78.40, while the best open-weight model, Llama 3.3 70B, is not far behind with a DefenderBench score of 71.81. DefenderBench's modular design allows seamless integration of custom LLMs and tasks, promoting reproducibility and fair comparisons. An anonymized version of DefenderBench is available at https://github.com/microsoft/DefenderBench.
Abstract（参考訳）: 大規模言語モデル(LLM)エージェントは、人間の言語理解と推論において印象的な能力を示してきたが、サイバーセキュリティにおけるその可能性はまだ探索されていない。私たちはDefenderBenchを紹介します。これは、犯罪、防衛、サイバーセキュリティ知識に基づくタスクの言語エージェントを評価するための実用的なオープンソースのツールキットです。 DefenderBenchには、ネットワーク侵入、悪意のあるコンテンツ検出、コード脆弱性分析、サイバーセキュリティ知識評価のための環境が含まれている。研究者にとって手頃で手軽に手軽に手に入るように意図され、公平で厳格な評価を提供する。我々は、標準化されたエージェントフレームワークを用いて、オープンおよびクローズドウェイトモデルを含むいくつかの最先端(SoTA)および人気のあるLCMをベンチマークする。以上の結果から,Claude-3.7-sonnetが81.65点,Claude-3.7-sonnetが78.40点,Llama 3.3 70Bが71.81点,Claude-3.7-sonnetが71.81点,Claude-3.7-sonnetが最高性能を示した。 DefenderBenchのモジュール設計は、カスタムLLMとタスクのシームレスな統合を可能にし、再現性と公正な比較を促進する。 DefenderBenchの匿名版がhttps://github.com/microsoft/DefenderBench.comで公開されている。

関連論文リスト

OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
MGC: A Compiler Framework Exploiting Compositional Blindness in Aligned LLMs for Malware Generation [22.29476520010842]
大規模言語モデル(LLM)はソフトウェア開発を民主化し、複雑なアプリケーションをプログラミングする際の専門知識の障壁を減らした。このアクセシビリティは、悪意のあるソフトウェア開発にまで拡張され、重大なセキュリティ上の懸念がもたらされる。本稿では,モジュール分解とアライメント回避生成を通じて,この脆弱性を活用する新しいフレームワークであるMalware Generation Compiler(MGC)を紹介する。
論文参考訳（メタデータ） (2025-07-02T18:00:49Z)
PandaGuard: Systematic Evaluation of LLM Safety against Jailbreaking Attacks [7.252454104194306]
大きな言語モデル(LLM)は目覚ましい能力を達成したが、ジェイルブレイクとして知られる敵のプロンプトに弱いままである。 LLMの安全性研究への取り組みが増えているにもかかわらず、既存の評価はしばしば断片化され、単独の攻撃や防御技術に焦点が当てられている。 PandaGuardはLLMジェイルブレイクの安全性を攻撃者、ディフェンダー、および審査員で構成されるマルチエージェントシステムとしてモデル化する、統一的でモジュール化されたフレームワークである。
論文参考訳（メタデータ） (2025-05-20T03:14:57Z)
DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文参考訳（メタデータ） (2025-04-18T20:36:10Z)
AutoAdvExBench: Benchmarking autonomous exploitation of adversarial example defenses [66.87883360545361]
AutoAdvExBenchは、大規模言語モデル(LLM)が敵の例に対する防衛を自律的に活用できるかどうかを評価するためのベンチマークである。我々は,CTF様(ホームワークエクササイズ)の75%を破壊できる強力なエージェントを設計する。このエージェントは、我々のベンチマークの現実世界の防御の13%でしか成功できないことを示し、実際の"コードを攻撃することの難しさとCTFライクなコードとの間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2025-03-03T18:39:48Z)
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.62654499260479]
我々は,LSMベースのエージェントの攻撃と防御を形式化し,ベンチマークし,評価するフレームワークであるAgen Security Bench (ASB)を紹介した。 ASBをベースとして、インジェクション攻撃10件、メモリ中毒攻撃、新しいPlan-of-Thoughtバックドア攻撃4件、混合攻撃11件をベンチマークした。ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
論文参考訳（メタデータ） (2024-10-03T16:30:47Z)
BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models [27.59116619946915]
生成型大規模言語モデル(LLM)は、幅広いタスクにおいて最先端の結果を得たが、バックドア攻撃の影響を受けないままである。 BackdoorLLMは、テキストジェネレーションLLMのバックドア脅威を体系的に評価する最初の包括的なベンチマークである。 i) 標準化されたトレーニングと評価パイプラインを備えたベンチマークの統一リポジトリ; (ii) データ中毒、重毒、隠れ状態操作、チェーン・オブ・シークレット・ハイジャックなど、さまざまなアタック・モダリティのスイート; (iii) 8つの異なるアタック戦略にまたがる200以上の実験。
論文参考訳（メタデータ） (2024-08-23T02:21:21Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。