論文の概要: Semantic-Aware Parsing for Security Logs
- arxiv url: http://arxiv.org/abs/2506.17512v1
- Date: Fri, 20 Jun 2025 23:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.453736
- Title: Semantic-Aware Parsing for Security Logs
- Title(参考訳): セキュリティログのためのセマンティック・アウェア・パーシング
- Authors: Julien Piet, Vivian Fang, Rishi Khare, Vern Paxson, Raluca Ada Popa, David Wagner,
- Abstract要約: 既存のAIベースは構文ログテンプレートの学習に重点を置いているが、クエリに必要な意味解釈は欠如している。
MatryoshkaはLLMを利用してセマンティックな構造化ログを自動的に生成する最初のエンドツーエンドシステムである。
マトリオシカは、価値ある分野を自動的に抽出し整理することで、手作業を大幅に削減する。
- 参考スコア(独自算出の注目度): 12.498937359368309
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Security analysts struggle to quickly and efficiently query and correlate log data due to the heterogeneity and lack of structure in real-world logs. Existing AI-based parsers focus on learning syntactic log templates but lack the semantic interpretation needed for querying. Directly querying large language models on raw logs is impractical at scale and vulnerable to prompt injection attacks. In this paper, we introduce Matryoshka, the first end-to-end system leveraging LLMs to automatically generate semantically-aware structured log parsers. Matryoshka combines a novel syntactic parser-employing precise regular expressions rather than wildcards-with a completely new semantic parsing layer that clusters variables and maps them into a queryable, contextually meaningful schema. This approach provides analysts with queryable and semantically rich data representations, facilitating rapid and precise log querying without the traditional burden of manual parser construction. Additionally, Matryoshka can map the newly created fields to recognized attributes within the Open Cybersecurity Schema Framework (OCSF), enabling interoperability. We evaluate Matryoshka on a newly curated real-world log benchmark, introducing novel metrics to assess how consistently fields are named and mapped across logs. Matryoshka's syntactic parser outperforms prior works, and the semantic layer achieves an F1 score of 0.95 on realistic security queries. Although mapping fields to the extensive OCSF taxonomy remains challenging, Matryoshka significantly reduces manual effort by automatically extracting and organizing valuable fields, moving us closer to fully automated, AI-driven log analytics.
- Abstract(参考訳): セキュリティアナリストは、実際のログにおける不均一性と構造の欠如のために、ログデータを迅速かつ効率的にクエリし、相関付けすることに苦労している。
既存のAIベースのパーサは構文ログテンプレートの学習に重点を置いているが、クエリに必要な意味解釈は欠如している。
生のログで大きな言語モデルを直接クエリするのは、大規模で非現実的であり、インジェクション攻撃の迅速化には脆弱である。
本稿では,LLMを利用した最初のエンドツーエンドシステムであるMatryoshkaを紹介し,意味認識型構造化ログパーサを自動生成する。
Matryoshkaは、ワイルドカードではなく正確な正規表現を構文解析する新しい構文解析層と、変数をクラスタ化してそれらをクエリ可能でコンテキスト的に意味のあるスキーマにマッピングする全く新しいセマンティック解析層を組み合わせたものだ。
このアプローチは、アナリストにクエリ可能でセマンティックにリッチなデータ表現を提供し、手動パーサ構築の従来の負担を伴わずに、迅速かつ正確なログクエリを容易にする。
さらに、Matryoshkaは、新しく作成されたフィールドをOpen Cybersecurity Schema Framework(OCSF)内で認識された属性にマッピングすることで、相互運用性を実現する。
我々は,Matryoshkaを新たにキュレートした実世界のログベンチマークで評価し,新しいメトリクスを導入し,ログをまたいだフィールドの命名とマッピングの一貫性を評価する。
Matryoshkaの構文解析器は以前の処理よりも優れており、セマンティックレイヤは現実的なセキュリティクエリでF1スコアが0.95に達する。
大規模なOCSF分類にフィールドをマッピングすることは依然として難しいが、Matryoshkaは、価値あるフィールドを自動的に抽出して整理することで、手作業を大幅に削減し、完全に自動化されたAI駆動のログ分析に私たちを近づける。
関連論文リスト
- System Log Parsing with Large Language Models: A Review [2.2779174914142346]
大規模言語モデル (LLM) はLLMに基づくログ解析の新しい研究分野を導入した。
有望な結果にもかかわらず、この比較的新しい研究分野におけるアプローチの構造化された概要は存在しない。
この研究は29 LLMベースのログ解析手法を体系的にレビューする。
論文 参考訳(メタデータ) (2025-04-07T09:41:04Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - Lemur: Log Parsing with Entropy Sampling and Chain-of-Thought Merging [18.823038918091207]
我々は、textbfEntropy サンプリングとチェーン・オブ・シンクトの textbfMerging (model) を用いた最先端の textbfLog 解析フレームワークを導入する。
退屈な手作業のルールを捨てるために,情報エントロピーにインスパイアされた新しいサンプリング手法を提案し,典型的なログを効率的にクラスタリングする。
大規模な公開データセットの実験を行った。
論文 参考訳(メタデータ) (2024-02-28T09:51:55Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling [65.51280121472146]
私たちは本質的にオントロジーラベルについて知っているものを利用して、効率的なセマンティック解析モデルを構築します。
我々のモデルはTOPv2から派生した低リソースのベンチマークを用いて高効率である。
論文 参考訳(メタデータ) (2021-04-15T04:01:02Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。