論文の概要: CritBench: A Framework for Evaluating Cybersecurity Capabilities of Large Language Models in IEC 61850 Digital Substation Environments
- arxiv url: http://arxiv.org/abs/2604.06019v1
- Date: Tue, 07 Apr 2026 16:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.92145
- Title: CritBench: A Framework for Evaluating Cybersecurity Capabilities of Large Language Models in IEC 61850 Digital Substation Environments
- Title(参考訳): CritBench: IEC 61850デジタルサブステーション環境における大規模言語モデルのサイバーセキュリティ能力評価フレームワーク
- Authors: Gustav Keppler, Moritz Gstür, Veit Hagenmeyer,
- Abstract要約: CritBenchは、LLM(Large Language Models)のサイバーセキュリティ機能を評価するために設計された、新しいフレームワークである。
OpenAIのGPT-5スイートやオープンウェイトモデルを含む5つの最先端モデルについて、81のドメイン固有タスクのコーパスで評価する。
実験の結果、エージェントは静的な構造化ファイル解析とシングルツールネットワーク列挙を確実に実行するが、その性能は動的タスクで劣化することがわかった。
- 参考スコア(独自算出の注目度): 0.30586855806896046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Large Language Models (LLMs) has raised concerns regarding their dual-use potential in cybersecurity. Existing evaluation frameworks overwhelmingly focus on Information Technology (IT) environments, failing to capture the constraints, and specialized protocols of Operational Technology (OT). To address this gap, we introduce CritBench, a novel framework designed to evaluate the cybersecurity capabilities of LLM agents within IEC 61850 Digital Substation environments. We assess five state-of-the-art models, including OpenAI's GPT-5 suite and open-weight models, across a corpus of 81 domain-specific tasks spanning static configuration analysis, network traffic reconnaissance, and live virtual machine interaction. To facilitate industrial protocol interaction, we develop a domain-specific tool scaffold. Our empirical results show that agents reliably execute static structured-file analysis and single-tool network enumeration, but their performance degrades on dynamic tasks. Despite demonstrating explicit, internalized knowledge of the IEC 61850 standards terminology, current models struggle with the persistent sequential reasoning and state tracking required to manipulate live systems without specialized tools. Equipping agents with our domain-specific tool scaffold significantly mitigates this operational bottleneck. Code and evaluation scripts are available at: https://github.com/GKeppler/CritBench
- Abstract(参考訳): LLM(Large Language Models)の進歩は、サイバーセキュリティにおける二重利用の可能性に対する懸念を引き起こしている。
既存の評価フレームワークはIT(Information Technology)環境に重点を置いており、制約を捉えていない。
このギャップに対処するために、IEC 61850 Digital Substation環境におけるLLMエージェントのサイバーセキュリティ能力を評価するために設計された新しいフレームワークであるCritBenchを紹介する。
OpenAIのGPT-5スイートやオープンウェイトモデルを含む5つの最先端モデルを評価し、静的な構成分析、ネットワークトラフィックの偵察、ライブ仮想マシンのインタラクションにまたがる81のドメイン固有のタスクのコーパスについて検討する。
産業プロトコルのインタラクションを容易にするため,ドメイン固有のツールスキャフォールドを開発した。
実験の結果、エージェントは静的な構造化ファイル解析とシングルツールネットワーク列挙を確実に実行するが、その性能は動的タスクで劣化することがわかった。
IEC 61850標準用語の明示的で内部化された知識にもかかわらず、現在のモデルは特別なツールを使わずにライブシステムを操作するために必要な永続的なシーケンシャルな推論と状態追跡に苦慮している。
ドメイン固有のツールの足場でエージェントを取得することは、この運用上のボトルネックを著しく軽減します。
コードと評価スクリプトは、https://github.com/GKeppler/CritBench.comで入手できる。
関連論文リスト
- STRIATUM-CTF: A Protocol-Driven Agentic Framework for General-Purpose CTF Solving [1.266832699428407]
モデルコンテキストプロトコル(MCP)上に構築されたモジュール型エージェントフレームワークであるSTRIATUM-CTF(サーチベーステストタイム推論推論エージェント、サイバーセキュリティにおける戦術的ユーティリティ最大化)を紹介する。
システムのイントロスペクション、デコンパイル、実行時のデバッグのためのツールインターフェースを標準化することで、STRIATUM-CTFはエージェントが拡張されたエクスプロイトトラジェクトリ間でコヒーレントなコンテキストウィンドウを維持することができる。
当社のシステムは2025年後半に開催された大学主催のCapture-the-Flag(CTF)コンペに参加し、リアルタイムで脆弱性を特定して悪用するために自律的に運用しました。
論文 参考訳(メタデータ) (2026-03-23T21:17:26Z) - Towards Worst-Case Guarantees with Scale-Aware Interpretability [58.519943565092724]
ニューラルネットワークは、自然データの階層的多スケール構造に従って情報を整理する。
我々は,形式機械と解釈可能性ツールを開発するための統一的な研究課題,即時対応型解釈可能性(enmphscale-aware interpretability)を提案する。
論文 参考訳(メタデータ) (2026-02-05T01:22:31Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - CHASE: LLM Agents for Dissecting Malicious PyPI Packages [2.384873896423002]
大規模言語モデル(LLM)は、自動コード分析に有望な機能を提供する。
セキュリティクリティカルなマルウェア検出への応用は、幻覚やコンテキストの混乱など、基本的な課題に直面している。
本稿では,これらの制約に対処する信頼性の高いマルチエージェントアーキテクチャCHASEを提案する。
論文 参考訳(メタデータ) (2026-01-11T10:06:14Z) - CyberLLM-FINDS 2025: Instruction-Tuned Fine-tuning of Domain-Specific LLMs with Retrieval-Augmented Generation and Graph Integration for MITRE Evaluation [0.054619385369457214]
本研究は,Gemma-2Bモデルをドメイン固有のサイバーセキュリティLLMに微調整する手法を提案する。
本稿では,データセット作成,微調整,合成データ生成のプロセスについて詳述するとともに,脅威検出,法医学的調査,および攻撃解析における実世界の応用への示唆について述べる。
論文 参考訳(メタデータ) (2026-01-11T05:07:57Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Auto-SGCR: Automated Generation of Smart Grid Cyber Range Using IEC 61850 Standard Models [8.55849957500108]
電力網のデジタル化は、過去10年間でますますサイバー攻撃を受けやすくなっている。
反復型サイバーセキュリティテストは、出現する攻撃ベクトルに対抗し、重要なインフラの信頼性を確保するために不可欠である。
高忠実度サイバーレンジは、生産環境を用いた実験や訓練を行うことができないことが多いため、不可欠である。
論文 参考訳(メタデータ) (2025-07-24T09:44:03Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - HasTEE+ : Confidential Cloud Computing and Analytics with Haskell [50.994023665559496]
信頼性コンピューティングは、Trusted Execution Environments(TEEs)と呼ばれる特別なハードウェア隔離ユニットを使用して、コテナントクラウドデプロイメントにおける機密コードとデータの保護を可能にする。
低レベルのC/C++ベースのツールチェーンを提供するTEEは、固有のメモリ安全性の脆弱性の影響を受けやすく、明示的で暗黙的な情報フローのリークを監視するための言語構造が欠如している。
私たちは、Haskellに埋め込まれたドメイン固有言語(cla)であるHasTEE+を使って、上記の問題に対処します。
論文 参考訳(メタデータ) (2024-01-17T00:56:23Z) - Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。
このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。
また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T10:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。