論文の概要: On the Effectiveness of Log Representation for Log-based Anomaly Detection
- arxiv url: http://arxiv.org/abs/2308.08736v3
- Date: Mon, 8 Apr 2024 09:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 04:57:43.083699
- Title: On the Effectiveness of Log Representation for Log-based Anomaly Detection
- Title(参考訳): ログベース異常検出におけるログ表現の有効性について
- Authors: Xingfang Wu, Heng Li, Foutse Khomh,
- Abstract要約: 本研究は,従来のログ解析研究から広く採用されているログ表現技術について検討し,比較する。
6つのログ表現手法を選択し、7つのMLモデルと4つの公開ログデータセットで評価する。
また、ログ表現技術を採用する際に、ログ解析プロセスと異なる特徴集約アプローチの影響についても検討する。
- 参考スコア(独自算出の注目度): 12.980238412281471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logs are an essential source of information for people to understand the running status of a software system. Due to the evolving modern software architecture and maintenance methods, more research efforts have been devoted to automated log analysis. In particular, machine learning (ML) has been widely used in log analysis tasks. In ML-based log analysis tasks, converting textual log data into numerical feature vectors is a critical and indispensable step. However, the impact of using different log representation techniques on the performance of the downstream models is not clear, which limits researchers and practitioners' opportunities of choosing the optimal log representation techniques in their automated log analysis workflows. Therefore, this work investigates and compares the commonly adopted log representation techniques from previous log analysis research. Particularly, we select six log representation techniques and evaluate them with seven ML models and four public log datasets (i.e., HDFS, BGL, Spirit and Thunderbird) in the context of log-based anomaly detection. We also examine the impacts of the log parsing process and the different feature aggregation approaches when they are employed with log representation techniques. From the experiments, we provide some heuristic guidelines for future researchers and developers to follow when designing an automated log analysis workflow. We believe our comprehensive comparison of log representation techniques can help researchers and practitioners better understand the characteristics of different log representation techniques and provide them with guidance for selecting the most suitable ones for their ML-based log analysis workflow.
- Abstract(参考訳): ログは、人々がソフトウェアシステムの動作状態を理解するために不可欠な情報源である。
最新のソフトウェアアーキテクチャとメンテナンス手法の進化により、自動ログ分析により多くの研究努力が注がれている。
特に、機械学習(ML)はログ分析タスクで広く使われている。
MLベースのログ解析タスクでは、テキストログデータを数値的な特徴ベクトルに変換することが重要かつ必須のステップである。
しかし、異なるログ表現技術がダウンストリームモデルの性能に与える影響は明らかではなく、研究者や実践者がログ解析の自動化ワークフローで最適なログ表現テクニックを選択する機会を制限している。
そこで本研究では,従来のログ解析研究から広く採用されているログ表現技術について検討し,比較する。
特に6つのログ表現手法を選択し、7つのMLモデルと4つの公開ログデータセット(HDFS、BGL、スピリット、サンダーバード)をログベースの異常検出のコンテキストで評価する。
また、ログ表現技術を採用する際に、ログ解析プロセスと異なる特徴集約アプローチの影響についても検討する。
実験から、自動ログ分析ワークフローの設計において、将来の研究者や開発者が従うためのヒューリスティックなガイドラインを提示する。
我々は、ログ表現テクニックの包括的な比較によって、研究者や実践者が異なるログ表現テクニックの特徴をよりよく理解し、MLベースのログ分析ワークフローに最も適したものを選択するためのガイダンスを提供することができると考えている。
関連論文リスト
- Log2graphs: An Unsupervised Framework for Log Anomaly Detection with Efficient Feature Extraction [1.474723404975345]
手動アノテーションの高コストと使用シナリオの動的な性質は、効果的なログ分析において大きな課題となる。
本研究では,様々なシナリオに対応するために設計されたDualGCN-LogAEと呼ばれる新しいログ特徴抽出モデルを提案する。
また,特徴抽出器に基づく教師なしログ異常検出手法であるLog2graphsを導入する。
論文 参考訳(メタデータ) (2024-09-18T11:35:58Z) - Stronger, Cheaper and Demonstration-Free Log Parsing with LLMs [18.240096266464544]
トレーニングプロセスやラベル付きデータを必要としない,費用対効果の高いLCMベースのログであるLogBatcherを提案する。
我々は16の公開ログデータセットの実験を行い、ログ解析にLogBatcherが有効であることを示した。
論文 参考訳(メタデータ) (2024-06-10T10:39:28Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - A Large-Scale Evaluation for Log Parsing Techniques: How Far Are We? [42.56249610409624]
実世界のソフトウェアシステムにおけるログデータの特徴をよりよく反映できる,アノテーション付きログデータセットの新たなコレクションであるLoghub-2.0を提供する。
我々は、より厳密で実践的な設定で15の最先端ログを徹底的に再評価し、特に、既存のメトリクスの非バランスなデータ分布に対する感度を緩和する新しい評価基準を導入する。
論文 参考訳(メタデータ) (2023-08-21T16:24:15Z) - Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。
本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。
本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文 参考訳(メタデータ) (2023-08-17T14:19:22Z) - LogAI: A Library for Log Analytics and Intelligence [27.889928073709516]
LogAIは、ログ分析とインテリジェンスのためのワンストップのオープンソースライブラリである。
ログの要約、ログクラスタリング、ログ異常検出などのタスクをサポートする。
LogAIは統一されたモデルインターフェースを提供し、人気のある時系列、統計学習、ディープラーニングモデルを提供する。
論文 参考訳(メタデータ) (2023-01-31T05:08:39Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Self-Attentive Classification-Based Anomaly Detection in Unstructured
Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。
従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文 参考訳(メタデータ) (2020-08-21T07:26:55Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。