論文の概要: HIDBench: Benchmarking Large Language Models for Host-Based Intrusion Detection
- arxiv url: http://arxiv.org/abs/2605.21773v1
- Date: Wed, 20 May 2026 22:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.004467
- Title: HIDBench: Benchmarking Large Language Models for Host-Based Intrusion Detection
- Title(参考訳): HIDBench: ホストベースの侵入検出のための大規模言語モデルのベンチマーク
- Authors: Danyu Sun, Jinghuai Zhang, Yuan Tian, Zhou Li,
- Abstract要約: ホストベースの侵入検知システムをサポートするために,大規模言語モデルの能力を評価するための新しいベンチマークを提案する。
このタスクは、大規模で騒々しく、高度に不均衡なシステムログに対してきめ細かい推論を必要とする。
LLMはHIDSに強い可能性を示すが,その有効性はデータの複雑さに非常に敏感である。
- 参考スコア(独自算出の注目度): 11.060899899257755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent benchmark efforts have advanced the evaluation of large language models (LLMs) in cybersecurity, including tasks such as penetration testing and vulnerability identification. However, a critical cybersecurity task, namely intrusion detection from system logs, remains unexplored. In this work, we present a new benchmark to assess LLMs' capabilities in supporting host-based intrusion detection systems (HIDS). This task requires fine-grained reasoning over large-scale, noisy, and highly imbalanced system logs, where complex interactions between benign and malicious activities make reliable detection challenging. Our benchmark unifies three public system log datasets, DARPA-E3, DARPA-E5, and NodLink, and introduces a data construction pipeline that transforms raw host telemetry into LLM-compatible inputs, enabling systematic evaluation under realistic intrusion detection settings. Our evaluation of frontier LLMs reveals substantial performance gaps across datasets. While many models achieve high precision (often above 0.8) on simpler datasets, their performance degrades significantly as system logs become noisier and more complex, with MCC frequently dropping below 0.5 and false positive rates increasing sharply. We further analyze model behavior and identify distinct regimes, including conservative detectors with low false positive rates and over-sensitive models that generate excessive alerts. Overall, our results highlight that while LLMs show strong potential for HIDS, their effectiveness is highly sensitive to data complexity, and robust system design is essential for reliable deployment.
- Abstract(参考訳): 最近のベンチマークでは、侵入テストや脆弱性識別などのタスクを含む、サイバーセキュリティにおける大規模言語モデル(LLM)の評価が進められている。
しかし、システムログからの侵入検知という重要なサイバーセキュリティタスクは、まだ解明されていない。
本研究では,ホスト型侵入検知システム(HIDS)におけるLSMの能力を評価するための新しいベンチマークを提案する。
このタスクは、大規模で騒々しく、高度に不均衡なシステムログに対してきめ細かな推論を必要とする。
我々のベンチマークでは,DARPA-E3,DARPA-E5,NodLinkの3つの公開システムログデータセットを統一し,生のホストテレメトリをLCM互換の入力に変換するデータ構築パイプラインを導入し,現実的な侵入検知設定下で体系的な評価を可能にする。
我々が評価したフロンティアLLMは,データセット間での大幅なパフォーマンスギャップを明らかにしている。
多くのモデルは単純なデータセット上で高い精度(多くは0.8以上)を達成するが、システムログがノイズが多く複雑になり、MCCは0.5以下に低下し、偽陽性率が急上昇するにつれて性能が著しく低下する。
さらに、モデル行動を分析し、偽陽性率の低い保守的な検知器や過度な警告を生成する過敏なモデルを含む、異なる状態を特定する。
全体として,LSMはHIDSに強い可能性を示すが,その有効性はデータの複雑さに非常に敏感であり,信頼性の高いデプロイメントにはロバストなシステム設計が不可欠である。
関連論文リスト
- CompliBench: Benchmarking LLM Judges for Compliance Violation Detection in Dialogue Systems [19.083967725767387]
CompliBenchは、マルチターン対話におけるガイドライン違反の検出とローカライズを行うLLM審査員の能力を評価するために設計された新しいベンチマークである。
ユーザとエージェントのインタラクションをシミュレートするスケーラブルで自動化されたデータ生成パイプラインを開発した。
我々の制御可能な欠陥注入プロセスは、自動的に、違反したガイドラインと正確な会話ターンの正確な接地木ラベルを出力する。
論文 参考訳(メタデータ) (2026-04-14T05:42:41Z) - Multi-Agent Collaborative Intrusion Detection for Low-Altitude Economy IoT: An LLM-Enhanced Agentic AI Framework [60.72591149679355]
低高度経済の急速な拡大により、インターネット・オブ・モノ(LAE-IoT)ネットワークは前例のないセキュリティ上の課題を生んだ。
従来の侵入検知システムは、空中IoT環境のユニークな特徴に対処できない。
LAE-IoTネットワークにおける侵入検出を強化するための大規模言語モデル(LLM)対応エージェントAIフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:25Z) - ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vulnerability Detection [43.41293570032631]
ParaVulは、スマートコントラクト脆弱性検出の信頼性と精度を向上させるための、検索強化フレームワークである。
LLM微調整のためのスパースローランド適応(SLoRA)を開発した。
脆弱性契約データセットを構築し,RAG(Retrieval-Augmented Generation)システムを開発した。
論文 参考訳(メタデータ) (2025-10-20T03:23:41Z) - Ensembling Large Language Models for Code Vulnerability Detection: An Empirical Evaluation [69.8237598448941]
本研究では,ソースコードの脆弱性検出において,Large Language Models(LLM)の性能を高めるためのアンサンブル学習の可能性を検討する。
脆弱性検出に適したスタック機能であるDynamic Gated Stacking (DGS)を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:48:22Z) - AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning [2.918225266151982]
AVIATORはAIによる最初の脆弱性注入ワークフローである。
高忠実で多様な大規模な脆弱性データセット生成のために、現実的でカテゴリ固有の脆弱性を自動的に注入する。
セマンティック分析、LoRAベースのファインチューニングとRetrieval-Augmented Generationで強化されたインジェクション合成、静的解析とLLMベースの識別器によるインジェクション後の検証を組み合わせる。
論文 参考訳(メタデータ) (2025-08-28T14:59:39Z) - From Alerts to Intelligence: A Novel LLM-Aided Framework for Host-based Intrusion Detection [16.59938864299474]
大規模言語モデル(LLM)は、ホストベースの侵入検知システム(HIDS)の状態を前進させる大きな可能性を秘めている。
LLMは攻撃技術と、意味解析によって異常を検出する能力について幅広い知識を持っている。
本研究では,HIDSのためのLLMパイプライン構築の方向性について検討し,ShielDというシステムを開発した。
論文 参考訳(メタデータ) (2025-07-15T00:24:53Z) - LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge [44.6358611761225]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な知性を示してきた。
これらのシステムは、評価結果を操作できる敵攻撃の影響を受けやすい。
LLMに基づく審査員による既存の評価手法は、しばしば断片的であり、包括的な評価のための統一された枠組みが欠如している。
論文 参考訳(メタデータ) (2025-06-11T06:48:57Z) - VAE-based Feature Disentanglement for Data Augmentation and Compression in Generalized GNSS Interference Classification [42.14439854721613]
干渉の正確な分類を可能にする重要な潜伏特徴を抽出するために, アンタングル化のための変分オートエンコーダ (VAE) を提案する。
提案するVAEは512から8,192の範囲のデータ圧縮率を実現し,99.92%の精度を実現している。
論文 参考訳(メタデータ) (2025-04-14T13:38:00Z) - Machine learning-based network intrusion detection for big and
imbalanced data using oversampling, stacking feature embedding and feature
extraction [6.374540518226326]
侵入検知システム(IDS)は、悪意あるアクターや活動を検出することによって相互接続ネットワークを保護する上で重要な役割を果たす。
本稿では,データ不均衡にRandom Oversampling (RO) を用いる新しいMLベースのネットワーク侵入検出モデルと,次元削減のためのStacking Feature Embedding (PCA)を提案する。
CIC-IDS 2017データセットを使用すると、DT、RF、ETモデルは99.99%の精度に達し、DTとRFモデルはCIC-IDS 2018データセットで99.94%の精度が得られる。
論文 参考訳(メタデータ) (2024-01-22T05:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。