論文の概要: Preprocessing is All You Need: Boosting the Performance of Log Parsers With a General Preprocessing Framework
- arxiv url: http://arxiv.org/abs/2412.05254v1
- Date: Fri, 06 Dec 2024 18:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:12.500667
- Title: Preprocessing is All You Need: Boosting the Performance of Log Parsers With a General Preprocessing Framework
- Title(参考訳): ログパーザのパフォーマンスを一般的な前処理フレームワークで向上させる
- Authors: Qiaolin Qin, Roozbeh Aghili, Heng Li, Ettore Merlo,
- Abstract要約: 先行研究では、多くの統計ベースのログ(例えば、Drain)が提案されており、非常に効率的である。
本研究は,本研究の成果を反映した汎用前処理フレームワークを開発し,既存の構文解析への影響を評価した。
実験の結果,前処理フレームワークは4つの最先端統計モデルの性能を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 2.342181121922312
- License:
- Abstract: Log parsing has been a long-studied area in software engineering due to its importance in identifying dynamic variables and constructing log templates. Prior work has proposed many statistic-based log parsers (e.g., Drain), which are highly efficient; they, unfortunately, met the bottleneck of parsing performance in comparison to semantic-based log parsers, which require labeling and more computational resources. Meanwhile, we noticed that previous studies mainly focused on parsing and often treated preprocessing as an ad hoc step (e.g., masking numbers). However, we argue that both preprocessing and parsing are essential for log parsers to identify dynamic variables: the lack of understanding of preprocessing may hinder the optimal use of parsers and future research. Therefore, our work studied existing log preprocessing approaches based on Loghub, a popular log parsing benchmark. We developed a general preprocessing framework with our findings and evaluated its impact on existing parsers. Our experiments show that the preprocessing framework significantly boosts the performance of four state-of-the-art statistic-based parsers. Drain, the best statistic-based parser, obtained improvements across all four parsing metrics (e.g., F1 score of template accuracy, FTA, increased by 108.9%). Compared to semantic-based parsers, it achieved a 28.3% improvement in grouping accuracy (GA), 38.1% in FGA, and an 18.6% increase in FTA. Our work pioneers log preprocessing and provides a generalizable framework to enhance log parsing.
- Abstract(参考訳): ログ解析は、動的変数を識別し、ログテンプレートを構築することの重要性から、ソフトウェア工学において長年研究されてきた分野である。
従来の作業では多くの統計ベースのログパーサ(例えばDrain)が提案されており、これは非常に効率的である。
一方,従来の研究は主に解析に焦点をあて,前処理をアドホックなステップ(例えばマスキング数)として扱うことが多かった。
しかし、我々は、ログパーサが動的変数を識別するためには、前処理と解析の両方が不可欠であると論じている。
そこで本研究では,ログ解析ベンチマークであるLoghubに基づいて,既存のログ前処理手法について検討した。
本研究は,本研究の成果を反映した汎用前処理フレームワークを開発し,既存のパーサーへの影響を評価した。
実験の結果,前処理フレームワークは4つの最先端統計解析器の性能を大幅に向上させることがわかった。
最高の統計ベースのパーサーであるDrainは、4つの解析指標(例えば、テンプレート精度のF1スコア、FTA)のすべての改善点を108.9%向上させた。
意味に基づくパーサーと比較して、グループ化精度(GA)が28.3%向上し、FGAが38.1%、FTAが18.6%向上した。
当社の作業は、ログ前処理の先駆者であり、ログ解析を強化するための一般化可能なフレームワークを提供しています。
関連論文リスト
- LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - LibreLog: Accurate and Efficient Unsupervised Log Parsing Using Open-Source Large Language Models [3.7960472831772774]
本稿では,非教師なしのログ解析手法であるLibreLogを紹介する。
LogHub-2.0の評価では、LibreLogは最先端のLCMに比べて25%高い解析精度とプロセス2.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-08-02T21:54:13Z) - Token Interdependency Parsing (Tipping) -- Fast and Accurate Log Parsing [0.09208007322096533]
ほとんどの自動分析ツールには、ログテンプレートをパラメータから分離するように設計されたコンポーネントが含まれている。
タイピング"は、ルールベースのトークンライザ、相互依存トークングラフ、強く接続されたコンポーネント、そして、迅速でスケーラブルで正確なログ解析を保証するための様々な技術を組み合わせています。
ラップトップマシン上では、20秒以内で1100万行のログを解析できる。
論文 参考訳(メタデータ) (2024-08-01T15:37:22Z) - Stronger, Cheaper and Demonstration-Free Log Parsing with LLMs [18.240096266464544]
トレーニングプロセスやラベル付きデータを必要としない,費用対効果の高いLCMベースのログであるLogBatcherを提案する。
我々は16の公開ログデータセットの実験を行い、ログ解析にLogBatcherが有効であることを示した。
論文 参考訳(メタデータ) (2024-06-10T10:39:28Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。
本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。
本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文 参考訳(メタデータ) (2023-08-17T14:19:22Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Fast semantic parsing with well-typedness guarantees [78.76675218975768]
AM依存性解析は、複数のグラフバンクにまたがる高精度なニューラルセマンティック解析の原理的手法である。
A* と AM 依存解析の遷移ベースを記述し, 高い型付け性を確保し, 解析速度を最大 3 桁向上する。
論文 参考訳(メタデータ) (2020-09-15T21:54:01Z) - Towards Instance-Level Parser Selection for Cross-Lingual Transfer of
Dependency Parsers [59.345145623931636]
我々は、インスタンスレベルの選択(ILPS)という、新しい言語間移動パラダイムを論じる。
本稿では,デレキシライズドトランスファーの枠組みにおけるインスタンスレベルの選択に着目した概念実証研究を提案する。
論文 参考訳(メタデータ) (2020-04-16T13:18:55Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。