論文の概要: A Comparative Study of Semantic Log Representations for Software Log-based Anomaly Detection
- arxiv url: http://arxiv.org/abs/2604.08028v1
- Date: Thu, 09 Apr 2026 09:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.84013
- Title: A Comparative Study of Semantic Log Representations for Software Log-based Anomaly Detection
- Title(参考訳): ソフトウェアログに基づく異常検出のための意味ログ表現の比較検討
- Authors: Yuqing Wang, Ying Song, Xiaozhou Li, Nana Reinikainen, Mika V. Mäntylä,
- Abstract要約: 我々は広く使われているセマンティックログ表現法をベンチマークした。
本稿では,新しい意味ログ表現法であるQTyBERTを提案する。
以上の結果から,QTyBERT生成のログ埋め込みはBERT生成のログ埋め込みと同等かそれ以上の精度で検出できることがわかった。
- 参考スコア(独自算出の注目度): 20.286101279636025
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent deep learning (DL) methods for log anomaly detection increasingly rely on semantic log representation methods that convert the textual content of log events into vector embeddings as input to DL models. However, these DL methods are typically evaluated as end-to-end pipelines, while the impact of different semantic representation methods is not well understood. In this paper, we benchmark widely used semantic log representation methods, including static word embedding methods (Word2Vec, GloVe, and FastText) and the BERT-based contextual embedding method, across diverse DL models for log-event level anomaly detection on three publicly available log datasets: BGL, Thunderbird, and Spirit. We identify an effectiveness--efficiency trade off under CPU deployment settings: the BERT-based method is more effective, but incurs substantially longer log embedding generation time, limiting its practicality; static word embedding methods are efficient but are generally less effective and may yield insufficient detection performance. Motivated by this finding, we propose QTyBERT, a novel semantic log representation method that better balances this trade-off. QTyBERT uses SysBE, a lightweight BERT variant with system-specific quantization, to efficiently encode log events into vector embeddings on CPUs, and leverages CroSysEh to enhance the semantic expressiveness of these log embeddings. CroSysEh is trained unsupervisedly using unlabeled logs from multiple systems to capture the underlying semantic structure of the BERT model's embedding space. We evaluate QTyBERT against existing semantic log representation methods. Our results show that, for the DL models, using QTyBERT-generated log embeddings achieves detection effectiveness comparable to or better than BERT-generated log embeddings, while bringing log embedding generation time closer to that of static word embedding methods.
- Abstract(参考訳): 近年、ログ異常検出のためのディープラーニング(DL)手法は、ログイベントのテキスト内容をDLモデルへの入力としてベクトル埋め込みに変換するセマンティックログ表現法にますます依存している。
しかしながら、これらのDLメソッドは一般的にエンドツーエンドパイプラインとして評価されるが、異なる意味表現方法の影響はよく理解されていない。
本稿では,静的な単語埋め込み手法(Word2Vec,GloVe,FastText)や,BGL,Thunderbird,Spiritの3つの公開ログデータセット上で,ログイベントレベルの異常検出のための多様なDLモデルを対象としたBERTベースのコンテキスト埋め込み手法を含む,広く使用されているセマンティックログ表現手法をベンチマークする。
BERTベースの手法はより効率的であるが、ログ埋め込み生成時間を大幅に長くし、実用性を制限し、静的単語埋め込み法は効率的であるが、一般的には効率が悪く、検出性能が不十分である可能性がある。
そこで本研究では,このトレードオフのバランスを良くするセマンティックログ表現手法であるQTyBERTを提案する。
QTyBERTは、システム固有の量子化を備えた軽量BERTのSysBEを使用して、ログイベントをCPU上のベクトル埋め込みに効率的にエンコードし、CroSysEhを活用して、これらのログ埋め込みのセマンティック表現性を高める。
CroSysEhは、BERTモデルの埋め込み空間の基盤となるセマンティック構造をキャプチャするために、複数のシステムからラベルのないログを使用して教師なしで訓練されている。
既存の意味ログ表現手法に対してQTyBERTを評価する。
以上の結果から, DLモデルでは, QTyBERT 生成したログ埋め込みは BERT 生成したログ埋め込みと同等かそれ以上の精度で検出でき, また, ログ埋め込み生成時間は静的単語埋め込み法に近いことがわかった。
関連論文リスト
- NGDB-Zoo: Towards Efficient and Scalable Neural Graph Databases Training [55.35217340229661]
NGDB-Zooは,演算子レベルのトレーニングをセマンティック拡張と相乗化することでボトルネックを解消する統合フレームワークである。
NGDB-Zooは多種多様な論理パターンにまたがって高いGPU利用率を維持し, ハイブリッド型ニューロシンボリック推論における摩擦を著しく軽減することを示した。
論文 参考訳(メタデータ) (2026-02-25T05:46:42Z) - Revisiting Logit Distributions for Reliable Out-of-Distribution Detection [73.9121001113687]
アウト・オブ・ディストリビューション(OOD)検出は、オープンワールドアプリケーションにおけるディープラーニングモデルの信頼性を保証するために重要である。
LogitGapは、最大ロジットと残りのロジットの関係を利用する、ポストホックなOOD検出手法である。
我々は、LogitGapが様々なOOD検出シナリオとベンチマークにわたって、最先端のパフォーマンスを一貫して達成していることを示す。
論文 参考訳(メタデータ) (2025-10-23T02:16:45Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - LogLLM: Log-based Anomaly Detection Using Large Language Models [7.7704116297749675]
大規模言語モデル(LLM)を活用するログベースの異常検出フレームワークであるLogLLMを提案する。
LogLLMはBERTを使用してログメッセージからセマンティックベクターを抽出し、変換器デコーダベースのモデルであるLlamaを使ってログシーケンスを分類する。
我々のフレームワークは、性能と適応性を高めるために設計された新しい3段階の手順によって訓練されている。
論文 参考訳(メタデータ) (2024-11-13T12:18:00Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - LogLG: Weakly Supervised Log Anomaly Detection via Log-Event Graph
Construction [31.31712326361932]
そこで本研究では,LogLGという名前のログ異常検出フレームワークを提案し,シーケンスからキーワード間のセマンティックな関係を探索する。
具体的には、ラベルなしログのキーワードを最初に抽出してログイベントグラフを構築するエンド・ツー・エンドの反復処理を設計する。
そして、未ラベルのログシーケンスの擬似ラベルを生成するために、サブグラフアノテータを構築する。
論文 参考訳(メタデータ) (2022-08-23T09:32:19Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。