論文の概要: A Large-scale Benchmark for Log Parsing
- arxiv url: http://arxiv.org/abs/2308.10828v1
- Date: Mon, 21 Aug 2023 16:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 13:17:39.850294
- Title: A Large-scale Benchmark for Log Parsing
- Title(参考訳): ログ解析のための大規模ベンチマーク
- Authors: Zhihan Jiang, Jinyang Liu, Junjie Huang, Yichen Li, Yintong Huo,
Jiazhen Gu, Zhuangbin Chen, Jieming Zhu and Michael R. Lyu
- Abstract要約: さまざまなログデータセットが存在しており、これらのツールをベンチマークして機能やパフォーマンスを理解することが不可欠である。
ログ解析のための既存のデータセットは、スケールと代表性の点で制限されている。
我々は,実世界のソフトウェアシステムで観測されるログデータをより正確に反映した,LogPubという,大規模アノテートログデータセットのコレクションを導入する。
- 参考スコア(独自算出の注目度): 44.16309634200891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Log data is pivotal in activities like anomaly detection and failure
diagnosis in the automated maintenance of software systems. Due to their
unstructured format, log parsing is often required to transform them into a
structured format for automated analysis. A variety of log parsers exist,
making it vital to benchmark these tools to comprehend their features and
performance. However, existing datasets for log parsing are limited in terms of
scale and representativeness, posing challenges for studies that aim to
evaluate or develop log parsers. This problem becomes more pronounced when
these parsers are evaluated for production use. To address these issues, we
introduce a new collection of large-scale annotated log datasets, named LogPub,
which more accurately mirrors log data observed in real-world software systems.
LogPub comprises 14 datasets, each averaging 3.6 million log lines. Utilizing
LogPub, we re-evaluate 15 log parsers in a more rigorous and practical setting.
We also propose a new evaluation metric to lessen the sensitivity of current
metrics to imbalanced data distribution. Furthermore, we are the first to
scrutinize the detailed performance of log parsers on logs that represent rare
system events and offer comprehensive information for system troubleshooting.
Parsing such logs accurately is vital yet challenging. We believe that our work
could shed light on the design and evaluation of log parsers in more realistic
settings, thereby facilitating their implementation in production systems.
- Abstract(参考訳): ログデータは、ソフトウェアシステムの自動保守における異常検出や障害診断といった活動において重要なものだ。
構造化されていないフォーマットであるため、ログ解析は自動解析のために構造化フォーマットに変換するためにしばしば必要となる。
さまざまなログパーサが存在しており、これらのツールをベンチマークして機能やパフォーマンスを理解することが不可欠である。
しかしながら、ログ解析のための既存のデータセットは、スケールと代表性の観点から制限されており、ログパーサーの評価や開発を目的とした研究の課題となっている。
この問題は、これらのパーサーが製品用に評価されるとより顕著になる。
これらの問題に対処するため,我々は,実世界のソフトウェアシステムで観測されるログデータをより正確にミラーリングするlogpubという,大規模な注釈付きログデータセットのコレクションを導入する。
logpubは14のデータセットからなり、それぞれ平均360万のログ行からなる。
LogPubを利用することで、より厳密で実用的な設定で、15のログパーサを再評価します。
また,不均衡なデータ分布に対する現在の指標の感度を低下させる新しい評価指標を提案する。
さらに,レアシステムイベントを表すログ上のログパーサの詳細な性能を調査し,システムのトラブルシューティングに関する包括的な情報を提供する。
このようなログを正確に解析することは、非常に難しい。
当社の作業は、より現実的な設定でログパーサの設計と評価に光を当てることによって、本番システムにおける実装が容易になると考えています。
関連論文リスト
- LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - Stronger, Cheaper and Demonstration-Free Log Parsing with LLMs [18.240096266464544]
トレーニングプロセスやラベル付きデータを必要としない,費用対効果の高いLCMベースのログであるLogBatcherを提案する。
我々は16の公開ログデータセットの実験を行い、ログ解析にLogBatcherが有効であることを示した。
論文 参考訳(メタデータ) (2024-06-10T10:39:28Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。
本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。
本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文 参考訳(メタデータ) (2023-08-17T14:19:22Z) - On the Effectiveness of Log Representation for Log-based Anomaly Detection [12.980238412281471]
本研究は,従来のログ解析研究から広く採用されているログ表現技術について検討し,比較する。
6つのログ表現手法を選択し、7つのMLモデルと4つの公開ログデータセットで評価する。
また、ログ表現技術を採用する際に、ログ解析プロセスと異なる特徴集約アプローチの影響についても検討する。
論文 参考訳(メタデータ) (2023-08-17T02:18:59Z) - Data-Driven Approach for Log Instruction Quality Assessment [59.04636530383049]
優れた品質特性を持つログ命令の記述方法に関するガイドラインは,広く採用されていない。
1)ログレベルの正確さを評価するための正しいログレベルの割り当てと,2)イベント記述の冗長化に必要な静的テキストの最小富度を評価する十分な言語構造である。
本手法は,F1スコア0.99の十分な言語構造を用いて,ログレベルの割当を精度0.88で正確に評価する。
論文 参考訳(メタデータ) (2022-04-06T07:02:23Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。