論文の概要: Self-Supervised Log Parsing
- arxiv url: http://arxiv.org/abs/2003.07905v1
- Date: Tue, 17 Mar 2020 19:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 22:08:20.007305
- Title: Self-Supervised Log Parsing
- Title(参考訳): 自己監督型ログパーシング
- Authors: Sasho Nedelkoski, Jasmin Bogatinovski, Alexander Acker, Jorge Cardoso
and Odej Kao
- Abstract要約: 大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
- 参考スコア(独自算出の注目度): 59.04636530383049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logs are extensively used during the development and maintenance of software
systems. They collect runtime events and allow tracking of code execution,
which enables a variety of critical tasks such as troubleshooting and fault
detection. However, large-scale software systems generate massive volumes of
semi-structured log records, posing a major challenge for automated analysis.
Parsing semi-structured records with free-form text log messages into
structured templates is the first and crucial step that enables further
analysis. Existing approaches rely on log-specific heuristics or manual rule
extraction. These are often specialized in parsing certain log types, and thus,
limit performance scores and generalization. We propose a novel parsing
technique called NuLog that utilizes a self-supervised learning model and
formulates the parsing task as masked language modeling (MLM). In the process
of parsing, the model extracts summarizations from the logs in the form of a
vector embedding. This allows the coupling of the MLM as pre-training with a
downstream anomaly detection task. We evaluate the parsing performance of NuLog
on 10 real-world log datasets and compare the results with 12 parsing
techniques. The results show that NuLog outperforms existing methods in parsing
accuracy with an average of 99% and achieves the lowest edit distance to the
ground truth templates. Additionally, two case studies are conducted to
demonstrate the ability of the approach for log-based anomaly detection in both
supervised and unsupervised scenario. The results show that NuLog can be
successfully used to support troubleshooting tasks. The implementation is
available at https://github.com/nulog/nulog.
- Abstract(参考訳): ログはソフトウェアシステムの開発とメンテナンスに広く利用されている。
ランタイムイベントを収集し、コード実行のトラッキングを可能にすることで、トラブルシューティングや障害検出など、さまざまな重要なタスクが可能になる。
しかし,大規模ソフトウェアシステムでは大量の半構造化ログが生成され,自動解析の大きな課題となっている。
半構造化レコードと自由形式のテキストログメッセージを構造化テンプレートに解析することは、さらなる分析を可能にする最初の重要なステップである。
既存のアプローチはログ固有のヒューリスティックや手動ルール抽出に依存している。
これらは、特定のログタイプの解析に特化して、パフォーマンススコアと一般化を制限する。
自己教師あり学習モデルを用いた新しい解析手法 nulog を提案し,その解析タスクを masked language modeling (mlm) として定式化する。
解析の過程で、モデルはベクトル埋め込みの形でログから要約を抽出する。
これにより、MLMの事前トレーニングと下流異常検出タスクの結合が可能になる。
実世界の10のログデータセットにおけるNuLogのパース性能を評価し,12のパース手法との比較を行った。
以上の結果から,NuLogは従来の手法よりも平均99%の精度で解析し,地上の真理テンプレートよりも編集距離が低いことがわかった。
さらに,教師付きシナリオと教師なしシナリオの両方において,ログに基づく異常検出手法が有効であることを示すために,2つのケーススタディを行った。
結果は、トラブルシューティングタスクをサポートするためにNuLogがうまく使えることを示している。
実装はhttps://github.com/nulog/nulogで利用可能である。
関連論文リスト
- HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - Stronger, Cheaper and Demonstration-Free Log Parsing with LLMs [18.240096266464544]
トレーニングプロセスやラベル付きデータを必要としない,費用対効果の高いLCMベースのログであるLogBatcherを提案する。
我々は16の公開ログデータセットの実験を行い、ログ解析にLogBatcherが有効であることを示した。
論文 参考訳(メタデータ) (2024-06-10T10:39:28Z) - Lemur: Log Parsing with Entropy Sampling and Chain-of-Thought Merging [33.522495018321386]
textbfEntropy サンプリングと Chain-of-Thought textbfMerging (Lemur) を用いた最先端 textbfLog 解析フレームワークを提案する。
本稿では,典型的なログを効率的にクラスタリングする情報エントロピーにインスパイアされた新しいサンプリング手法を提案する。
Lemurは最先端のパフォーマンスと素晴らしい効率を実現している。
論文 参考訳(メタデータ) (2024-02-28T09:51:55Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - Prompting for Automatic Log Template Extraction [6.299547112893045]
DivLogは、大規模言語モデル(LLM)の非コンテキスト学習(ICL)能力に基づく効果的なログ解析フレームワークである。
プロンプト内の例のセマンティクスをマイニングすることで、DivLogはトレーニング不要な方法でターゲットログテンプレートを生成する。
論文 参考訳(メタデータ) (2023-07-19T12:44:59Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - On Automatic Parsing of Log Records [0.0]
繰り返しニューラルネットワークベースのMTモデルをトレーニングするために使用した合成Apacheログレコードを生成するツールを作成します。
実世界のログに対するモデルの評価は、モデルがApacheログフォーマットを学び、個々のログレコードを解析できることを示しています。
論文 参考訳(メタデータ) (2021-02-12T00:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。