論文の概要: LLM meets ML: Data-efficient Anomaly Detection on Unseen Unstable Logs
- arxiv url: http://arxiv.org/abs/2406.07467v2
- Date: Mon, 07 Apr 2025 20:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:27:02.899950
- Title: LLM meets ML: Data-efficient Anomaly Detection on Unseen Unstable Logs
- Title(参考訳): LLMがMLに到達: 見えないログにおけるデータ効率のよい異常検出
- Authors: Fatemeh Hadadi, Qinghua Xu, Domenico Bianculli, Lionel Briand,
- Abstract要約: 不安定なログ(ULAD)の異常検出は、より現実的で、未検討の課題である。
現在のアプローチは主に機械学習(ML)モデルを採用しており、トレーニングには広範なラベル付きデータを必要とすることが多い。
我々は、アンサンブル学習を通じて、決定木、k-アネレスト隣人、フィードフォワードニューラルネットワークといったMLモデルを組み合わせた、ULADのための新しいハイブリッドアプローチであるFlexLogを提案する。
- 参考スコア(独自算出の注目度): 1.9713190626298576
- License:
- Abstract: Most log-based anomaly detectors assume logs are stable, though logs are often unstable due to software or environmental changes. Anomaly detection on unstable logs (ULAD) is therefore a more realistic, yet under-investigated challenge. Current approaches predominantly employ machine learning (ML) models, which often require extensive labeled data for training. To mitigate data insufficiency, we propose FlexLog, a novel hybrid approach for ULAD that combines ML models -- decision tree, k-nearest neighbors, and a feedforward neural network -- with a Large Language Model (Mistral) through ensemble learning. FlexLog also incorporates a cache and retrieval-augmented generation (RAG) to further enhance efficiency and effectiveness. To evaluate FlexLog, we configured four datasets for ULAD, namely ADFA-U, LOGEVOL-U, SynHDFS-U, and SYNEVOL-U. FlexLog outperforms all baselines by at least 1.2 percentage points in F1 score while using 62.87 percentage points less labeled data. When trained on the same amount of data as the baselines, FlexLog achieves up to a 13 percentage points increase in F1 score on ADFA-U across varying training dataset sizes. Additionally, FlexLog maintains inference time under one second per log sequence, making it suitable for most applications except latency-sensitive systems. Further analysis reveals the positive impact of FlexLog's key components: cache, RAG and ensemble learning.
- Abstract(参考訳): ほとんどのログベースの異常検知器は、ログが安定であると仮定するが、ソフトウェアや環境の変化のため、ログは不安定であることが多い。
したがって、不安定なログ(ULAD)の異常検出は、より現実的で、未調査の課題である。
現在のアプローチは主に機械学習(ML)モデルを採用しており、トレーニングには広範なラベル付きデータを必要とすることが多い。
データ不足を軽減するために、私たちは、決定ツリー、k-nearest隣人、フィードフォワードニューラルネットワークといったMLモデルと、アンサンブル学習によるLarge Language Model(Mistral)を組み合わせた、ULADの新しいハイブリッドアプローチであるFlexLogを提案する。
FlexLogにはキャッシュと検索拡張ジェネレーション(RAG)も組み込まれており、効率性と効率性をさらに向上させる。
FlexLogの評価には,ADFA-U,LOGEVOL-U,SynHDFS-U,SynEVOL-Uの4つのデータセットを設定した。
FlexLogはF1のスコアにおいて、全てのベースラインを少なくとも1.2ポイント上回り、62.87ポイントのラベル付きデータを使用する。
ベースラインと同じ量のデータをトレーニングすると、FlexLogはトレーニングデータセットのサイズによって、ADFA-UのF1スコアが最大で13パーセント増加します。
さらにFlexLogは、ログシーケンス当たり1秒未満の推論時間を維持しており、レイテンシに敏感なシステムを除くほとんどのアプリケーションに適している。
さらに分析した結果、FlexLogの主要なコンポーネントであるキャッシュ、RAG、アンサンブル学習の影響が明らかになった。
関連論文リスト
- Semi-supervised learning via DQN for log anomaly detection [1.5339370927841764]
ログ異常検出における現在の手法は、ラベルなしデータの未使用、正規クラスと異常クラスのデータの不均衡、偽陽性と偽陰性率などの課題に直面している。
本稿では,DQNLogと呼ばれる半教師付きログ異常検出手法を提案する。
広く使われている3つのデータセット上でDQNLogを評価し、大規模未ラベルデータを効果的に活用できることを実証した。
論文 参考訳(メタデータ) (2024-01-06T08:04:13Z) - LogGPT: Log Anomaly Detection via GPT [15.790373280124196]
ログ異常検出にGPTを用いた新しいフレームワークであるLogGPTを提案する。
LogGPTは、まず、前回のシーケンスに基づいて次のログエントリを予測するように訓練される。
本稿では,ログ異常検出タスクに特化してモデルを微調整する新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T19:29:50Z) - Log-based Anomaly Detection based on EVT Theory with feedback [31.949892354842525]
本研究では,SeaLogと呼ばれる高精度で軽量かつ適応的なログベースの異常検出フレームワークを提案する。
本稿では,リアルタイムな異常検出を行うために,軽量で動的に成長するトリエ構造を用いたTrie-based Detection Agent (TDA)を提案する。
ログデータの進化に対応してTDAの精度を高めるため,専門家からフィードバックを得られるようにした。
論文 参考訳(メタデータ) (2023-06-08T08:34:58Z) - EvLog: Identifying Anomalous Logs over Software Evolution [31.46106509190191]
解析なしでログを処理するためのEvolving Log extractor (EvLog) という新しい教師なし手法を提案する。
EvLogは、異常なログを識別し、不安定なシーケンスによって引き起こされる問題を回避するために、注意機構を備えた異常判別器を実装している。
EvLogは、平均F1スコアが0.955と0.847の2つの実世界のシステム進化ログデータセットにおいて、それぞれバージョン内設定とバージョン間設定で有効であることを示した。
論文 参考訳(メタデータ) (2023-06-02T12:58:00Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly
detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。
通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。
その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-08T14:07:55Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - Self-Attentive Classification-Based Anomaly Detection in Unstructured
Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。
従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文 参考訳(メタデータ) (2020-08-21T07:26:55Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。