論文の概要: ContraLog: Log File Anomaly Detection with Contrastive Learning and Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2602.03678v1
- Date: Tue, 03 Feb 2026 15:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.557681
- Title: ContraLog: Log File Anomaly Detection with Contrastive Learning and Masked Language Modeling
- Title(参考訳): ContraLog: コントラスト学習とマスク言語モデリングによるログファイル異常検出
- Authors: Simon Dietz, Kai Klede, An Nguyen, Bjoern M Eskofier,
- Abstract要約: ContraLogは、個別のテンプレートIDではなく、連続メッセージの埋め込みを予測するログ異常検出手法である。
ContraLogが生成したメッセージ埋め込みは意味のある情報を持ち、シーケンスコンテキストなしでも異常を予測できることを示す。
結果は、他のイベントシーケンスに適用可能なログ異常検出のアプローチとして、埋め込みレベルの予測を強調している。
- 参考スコア(独自算出の注目度): 5.34230216484876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Log files record computational events that reflect system state and behavior, making them a primary source of operational insights in modern computer systems. Automated anomaly detection on logs is therefore critical, yet most established methods rely on log parsers that collapse messages into discrete templates, discarding variable values and semantic content. We propose ContraLog, a parser-free and self-supervised method that reframes log anomaly detection as predicting continuous message embeddings rather than discrete template IDs. ContraLog combines a message encoder that produces rich embeddings for individual log messages with a sequence encoder to model temporal dependencies within sequences. The model is trained with a combination of masked language modeling and contrastive learning to predict masked message embeddings based on the surrounding context. Experiments on the HDFS, BGL, and Thunderbird benchmark datasets empirically demonstrate effectiveness on complex datasets with diverse log messages. Additionally, we find that message embeddings generated by ContraLog carry meaningful information and are predictive of anomalies even without sequence context. These results highlight embedding-level prediction as an approach for log anomaly detection, with potential applicability to other event sequences.
- Abstract(参考訳): ログファイルは、システムの状態と振舞いを反映した計算イベントを記録し、現代のコンピュータシステムにおける運用上の洞察の主要な源となる。
そのため、ログの自動異常検出は重要であるが、確立されたほとんどのメソッドは、メッセージを個別のテンプレートに分解し、変数値とセマンティックコンテンツを破棄するログパーサに依存している。
本研究では,個別のテンプレートIDではなく,連続メッセージの埋め込みを予測するために,ログ異常検出をリフレームするパーサフリーで自己教師型手法であるContraLogを提案する。
ContraLogは、個々のログメッセージにリッチな埋め込みを生成するメッセージエンコーダと、シーケンス内の時間的依存関係をモデル化するシーケンスエンコーダを組み合わせる。
このモデルは、マスキング言語モデリングとコントラスト学習を組み合わせて、周囲のコンテキストに基づいてマスキングメッセージの埋め込みを予測することで訓練される。
HDFS、BGL、Thunderbirdベンチマークデータセットの実験は、多様なログメッセージを持つ複雑なデータセットに対する効果を実証的に実証している。
さらに、ContraLogが生成したメッセージ埋め込みは意味のある情報を持ち、シーケンスコンテキストなしでも異常を予測できることがわかった。
これらの結果は、他のイベントシーケンスに適用可能なログ異常検出のアプローチとして、埋め込みレベルの予測を強調している。
関連論文リスト
- LogLLM: Log-based Anomaly Detection Using Large Language Models [7.7704116297749675]
大規模言語モデル(LLM)を活用するログベースの異常検出フレームワークであるLogLLMを提案する。
LogLLMはBERTを使用してログメッセージからセマンティックベクターを抽出し、変換器デコーダベースのモデルであるLlamaを使ってログシーケンスを分類する。
我々のフレームワークは、性能と適応性を高めるために設計された新しい3段階の手順によって訓練されている。
論文 参考訳(メタデータ) (2024-11-13T12:18:00Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - Lemur: Log Parsing with Entropy Sampling and Chain-of-Thought Merging [18.823038918091207]
我々は、textbfEntropy サンプリングとチェーン・オブ・シンクトの textbfMerging (model) を用いた最先端の textbfLog 解析フレームワークを導入する。
退屈な手作業のルールを捨てるために,情報エントロピーにインスパイアされた新しいサンプリング手法を提案し,典型的なログを効率的にクラスタリングする。
大規模な公開データセットの実験を行った。
論文 参考訳(メタデータ) (2024-02-28T09:51:55Z) - GLAD: Content-aware Dynamic Graphs For Log Anomaly Detection [49.9884374409624]
GLADは、システムログの異常を検出するように設計されたグラフベースのログ異常検出フレームワークである。
システムログの異常を検出するために設計されたグラフベースのログ異常検出フレームワークであるGLADを紹介する。
論文 参考訳(メタデータ) (2023-09-12T04:21:30Z) - LAnoBERT: System Log Anomaly Detection based on BERT Masked Language
Model [12.00171674362062]
システムログ異常検出の目的は、人間の介入を最小限に抑えつつ、即座に異常を識別することである。
従来の研究では、様々なログデータを標準化されたテンプレートに変換した後、アルゴリズムによる異常検出が行われた。
本研究では,自然言語処理性能に優れたLAnoBERTを提案する。
論文 参考訳(メタデータ) (2021-11-18T07:46:35Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - A Novel Anomaly Detection Algorithm for Hybrid Production Systems based
on Deep Learning and Timed Automata [73.38551379469533]
DAD:DeepAnomalyDetectionは,ハイブリッド生産システムにおける自動モデル学習と異常検出のための新しいアプローチである。
深層学習とタイムドオートマトンを組み合わせて、観察から行動モデルを作成する。
このアルゴリズムは実システムからの2つのデータを含む少数のデータセットに適用され、有望な結果を示している。
論文 参考訳(メタデータ) (2020-10-29T08:27:43Z) - Evidence-Aware Inferential Text Generation with Vector Quantised
Variational AutoEncoder [104.25716317141321]
本稿では,大規模なテキストコーパスからイベントの証拠を自動的に発見し,その証拠を利用して推論テキストの生成を導く手法を提案する。
このアプローチは、Event2MindとATOMICの両方のデータセットで最先端のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2020-06-15T02:59:52Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。