論文の概要: LogPurge: Log Data Purification for Anomaly Detection via Rule-Enhanced Filtering
- arxiv url: http://arxiv.org/abs/2511.14062v1
- Date: Tue, 18 Nov 2025 02:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.884953
- Title: LogPurge: Log Data Purification for Anomaly Detection via Rule-Enhanced Filtering
- Title(参考訳): LogPurge: ルール強化フィルタリングによる異常検出のためのログデータの浄化
- Authors: Shenglin Zhang, Ziang Chen, Zijing Que, Yilun Liu, Yongqian Sun, Sicheng Wei, Dan Pei, Hailin Li,
- Abstract要約: 本稿では,正常なログシーケンスのサブセットを自動的に選択し,異常検出モデルをトレーニングする,ルール強化された浄化フレームワークであるLogPurgeを提案する。
2つの公開データセットと1つの産業データセットを用いて行った実験により,本手法は平均98.74%の異常を著しく除去し,82.39%の正常サンプルを保持した。
- 参考スコア(独自算出の注目度): 16.01074159812065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Log anomaly detection, which is critical for identifying system failures and preempting security breaches, detects irregular patterns within large volumes of log data, and impacts domains such as service reliability, performance optimization, and database log analysis. Modern log anomaly detection methods rely on training deep learning models on clean, anomaly-free log sequences. However, obtaining such clean log data requires costly and tedious human labeling, and existing automatic cleaning methods fail to fully integrate the specific characteristics and actual semantics of logs in their purification process. In this paper, we propose a cost-aware, rule-enhanced purification framework, LogPurge, that automatically selects a sufficient subset of normal log sequences from contamination log sequences to train a anomaly detection model. Our approach involves a two-stage filtering algorithm: In the first stage, we use a large language model (LLM) to remove clustered anomalous patterns and enhance system rules to improve LLM's understanding of system logs; in the second stage, we utilize a divide-and-conquer strategy that decomposes the remaining contaminated regions into smaller subproblems, allowing each to be effectively purified through the first stage procedure. Our experiments, conducted on two public datasets and one industrial dataset, show that our method significantly removes an average of 98.74% of anomalies while retaining 82.39% of normal samples. Compared to the latest unsupervised log sample selection algorithms, our method achieves F-1 score improvements of 35.7% and 84.11% on the public datasets, and an impressive 149.72% F-1 improvement on the private dataset, demonstrating the effectiveness of our approach.
- Abstract(参考訳): ログ異常検出は、システム障害を特定し、セキュリティ違反を回避し、大量のログデータ内の不規則なパターンを検出し、サービスの信頼性、パフォーマンス最適化、データベースログ分析などのドメインに影響を与える。
現代のログ異常検出手法は、クリーンで異常のないログシーケンスに基づくディープラーニングモデルのトレーニングに依存している。
しかし、このようなクリーンなログデータを取得するには費用がかかり、面倒なラベル付けが必要であり、既存の自動クリーニング手法は、その浄化プロセスにおいてログの特定の特徴と実際の意味を十分に統合することができない。
本稿では,汚染ログシーケンスから正常なログシーケンスの十分なサブセットを自動的に選択し,異常検出モデルをトレーニングする,コスト対応で規則強化された浄化フレームワークであるLogPurgeを提案する。
第1段階では、クラスタ化された異常パターンを除去し、システムルールを強化するため、LLMのシステムログの理解を改善するために、大規模言語モデル(LLM)を使用し、第2段階では、残りの汚染された領域を小さなサブプロブレムに分解し、第1段階の手順で効果的に浄化する、分割・対数戦略を利用する。
2つの公開データセットと1つの産業データセットを用いて行った実験により,本手法は平均98.74%の異常を著しく除去し,82.39%の正常サンプルを保持した。
最新の無教師ログサンプル選択アルゴリズムと比較して, 公開データセットではF-1スコアが35.7%, 84.11%向上し, プライベートデータセットでは149.72%向上し, 提案手法の有効性を実証した。
関連論文リスト
- LogTinyLLM: Tiny Large Language Models Based Contextual Log Anomaly Detection [0.0]
本稿では,ローランク適応(LoRA)のパラメータ最適化と,大規模ログデータセットにおけるログ列のコンテキスト異常検出のためのアダプタベースアプローチを提案する。
その結果、LoRAベースのファインタニングは、LogBertベースのフルファインタニングアプローチよりも18~19パーセントの大幅なパフォーマンス向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-07-15T08:04:31Z) - Improving log-based anomaly detection through learned adaptive filter [4.0534963661486385]
State-of-the-the-art unsupervised methodは、ログシーケンスが与えられた次のログイベントを予測し、同じフィルタ条件を使用する固定設定を適用する。
深部強化学習(DRL)は、動的環境におけるインテリジェントな意思決定に広く応用されている。
DRLに基づく新しい手法を提案し、学習適応フィルタを構築し、異なるログシーケンスに対して異なる正規/異常フィルタしきい値を適用する。
論文 参考訳(メタデータ) (2025-04-03T19:31:24Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - A Supervised Embedding and Clustering Anomaly Detection method for
classification of Mobile Network Faults [0.0]
本稿では,SEMC-AD(Supervised Embedding and Clustering Anomaly Detection)を紹介する。
モバイルネットワークにおける異常警報ログを効率よく識別し、手動監視の課題を軽減するために設計された手法である。
SEMC-ADは99%の異常検出を達成し、ランダム森林とXGBoostはそれぞれ86%と81%の異常を検知している。
論文 参考訳(メタデータ) (2023-10-10T16:54:25Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - A2Log: Attentive Augmented Log Anomaly Detection [53.06341151551106]
異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。
既存の教師なし手法は、適切な決定境界を得るために異常な例を必要とする。
我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。
論文 参考訳(メタデータ) (2021-09-20T13:40:21Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Self-Attentive Classification-Based Anomaly Detection in Unstructured
Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。
従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文 参考訳(メタデータ) (2020-08-21T07:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。