論文の概要: LogShrink: Effective Log Compression by Leveraging Commonality and
Variability of Log Data
- arxiv url: http://arxiv.org/abs/2309.09479v1
- Date: Mon, 18 Sep 2023 04:27:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 07:31:25.583068
- Title: LogShrink: Effective Log Compression by Leveraging Commonality and
Variability of Log Data
- Title(参考訳): LogShrink: ログデータの共通性と可変性を活用した効果的なログ圧縮
- Authors: Xiaoyun Li, Hongyu Zhang, Van-Hoang Le, Pengfei Chen
- Abstract要約: 本稿では,ログデータの共通性と可変性を生かした,新規かつ効果的なログ圧縮手法であるLogShrinkを提案する。
ログメッセージにおける潜時的な共通性と変動性を特定するために, 最長のコモンシーケンスとエントロピーに基づく解析器を提案する。
この背景にある重要な考え方は、共通性と可変性を利用して、より短い表現でログデータを縮小できるということだ。
- 参考スコア(独自算出の注目度): 35.5712445690333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Log data is a crucial resource for recording system events and states during
system execution. However, as systems grow in scale, log data generation has
become increasingly explosive, leading to an expensive overhead on log storage,
such as several petabytes per day in production. To address this issue, log
compression has become a crucial task in reducing disk storage while allowing
for further log analysis. Unfortunately, existing general-purpose and
log-specific compression methods have been limited in their ability to utilize
log data characteristics. To overcome these limitations, we conduct an
empirical study and obtain three major observations on the characteristics of
log data that can facilitate the log compression task. Based on these
observations, we propose LogShrink, a novel and effective log compression
method by leveraging commonality and variability of log data. An analyzer based
on longest common subsequence and entropy techniques is proposed to identify
the latent commonality and variability in log messages. The key idea behind
this is that the commonality and variability can be exploited to shrink log
data with a shorter representation. Besides, a clustering-based sequence
sampler is introduced to accelerate the commonality and variability analyzer.
The extensive experimental results demonstrate that LogShrink can exceed
baselines in compression ratio by 16% to 356% on average while preserving a
reasonable compression speed.
- Abstract(参考訳): ログデータは、システム実行中のシステムイベントや状態を記録するための重要なリソースである。
しかし、システム規模が拡大するにつれて、ログデータ生成は爆発的に増加し、1日あたり数ペタバイトといったログストレージのコストが高騰している。
この問題に対処するため、ログ圧縮はディスクストレージの削減において重要なタスクとなり、さらにログ分析を可能にしている。
残念ながら、既存の汎用およびログ固有の圧縮方法は、ログデータ特性を利用する能力に制限がある。
これらの制約を克服するために,実証実験を行い,ログ圧縮作業を容易にするログデータの特徴について3つの主要な観察を行った。
本研究では,ログデータの共通性と可変性を活用したログ圧縮手法であるlogshrinkを提案する。
ログメッセージの潜在共通性と可変性を特定するために,最長の共通部分列とエントロピー技術に基づくアナライザを提案する。
この背景にある重要なアイデアは、共通性と可変性を利用して、より短い表現でログデータを縮小できることだ。
また、クラスタリングに基づくシーケンスサンプリングを導入し、共通性と可変性解析を高速化する。
広範な実験結果から,logshrinkは圧縮速度を維持しつつ,圧縮比のベースラインを平均で16%から356%上回ることがわかった。
関連論文リスト
- Log2graphs: An Unsupervised Framework for Log Anomaly Detection with Efficient Feature Extraction [1.474723404975345]
手動アノテーションの高コストと使用シナリオの動的な性質は、効果的なログ分析において大きな課題となる。
本研究では,様々なシナリオに対応するために設計されたDualGCN-LogAEと呼ばれる新しいログ特徴抽出モデルを提案する。
また,特徴抽出器に基づく教師なしログ異常検出手法であるLog2graphsを導入する。
論文 参考訳(メタデータ) (2024-09-18T11:35:58Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - GLAD: Content-aware Dynamic Graphs For Log Anomaly Detection [49.9884374409624]
GLADは、システムログの異常を検出するように設計されたグラフベースのログ異常検出フレームワークである。
システムログの異常を検出するために設計されたグラフベースのログ異常検出フレームワークであるGLADを紹介する。
論文 参考訳(メタデータ) (2023-09-12T04:21:30Z) - A Large-Scale Evaluation for Log Parsing Techniques: How Far Are We? [42.56249610409624]
実世界のソフトウェアシステムにおけるログデータの特徴をよりよく反映できる,アノテーション付きログデータセットの新たなコレクションであるLoghub-2.0を提供する。
我々は、より厳密で実践的な設定で15の最先端ログを徹底的に再評価し、特に、既存のメトリクスの非バランスなデータ分布に対する感度を緩和する新しい評価基準を導入する。
論文 参考訳(メタデータ) (2023-08-21T16:24:15Z) - Log Parsing Evaluation in the Era of Modern Software Systems [47.370291246632114]
自動ログ分析、ログ解析は、ログから洞察を導き出すための前提条件である。
本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。
本稿では,企業コンテキストにおけるログ解析性能を推定するツールであるLogchimeraを提案する。
論文 参考訳(メタデータ) (2023-08-17T14:19:22Z) - ClusterLog: Clustering Logs for Effective Log-based Anomaly Detection [3.3196401064045014]
本研究では,ログキーの時間列を意味的類似性に基づいてクラスタリングするログ前処理手法であるClusterLogを提案する。
セマンティックおよび感傷的に類似したログをグループ化することにより、ダウンストリームシーケンスベースのモデルでログパターンを効果的に学習する能力を改善することを目的として、単一のログキーでログシーケンスを表現することを目的としている。
論文 参考訳(メタデータ) (2023-01-19T01:54:48Z) - LogGD:Detecting Anomalies from System Logs by Graph Neural Networks [14.813971618949068]
本稿では,グラフに基づくログ異常検出手法であるLogGDを提案し,この問題に効果的に対処する。
グラフ構造とノードセマンティクスを組み合わせてログベースの異常検出を行うグラフトランスフォーマーニューラルネットワークの強力な機能を利用する。
論文 参考訳(メタデータ) (2022-09-16T11:51:58Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - Self-Attentive Classification-Based Anomaly Detection in Unstructured
Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。
従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文 参考訳(メタデータ) (2020-08-21T07:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。