論文の概要: AnomalyGen: An Automated Semantic Log Sequence Generation Framework with LLM for Anomaly Detection
- arxiv url: http://arxiv.org/abs/2504.12250v1
- Date: Wed, 16 Apr 2025 16:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 18:06:35.630028
- Title: AnomalyGen: An Automated Semantic Log Sequence Generation Framework with LLM for Anomaly Detection
- Title(参考訳): AnomalyGen: 異常検出のためのLLM付き自動セマンティックログシーケンス生成フレームワーク
- Authors: Xinyu Li, Yingtong Huo, Chenxi Mao, Shiwen Shan, Yuxin Su, Dan Li, Zibin Zheng,
- Abstract要約: AnomalyGenは、異常検出用に特別に設計された最初の自動ログ合成フレームワークである。
本フレームワークは,プログラム解析とChain-of-Thought推論(CoT推論)を統合し,反復的なログ生成と異常アノテーションを実現する。
合成ログでベンチマークデータセットを増大させると、最大F1スコアの3.7%の改善が観測される。
- 参考スコア(独自算出の注目度): 25.83270938475311
- License:
- Abstract: The scarcity of high-quality public log datasets has become a critical bottleneck in advancing log-based anomaly detection techniques. Current datasets exhibit three fundamental limitations: (1) incomplete event coverage, (2) artificial patterns introduced by static analysis-based generation frameworks, and (3) insufficient semantic awareness. To address these challenges, we present AnomalyGen, the first automated log synthesis framework specifically designed for anomaly detection. Our framework introduces a novel four-phase architecture that integrates enhanced program analysis with Chain-of-Thought reasoning (CoT reasoning), enabling iterative log generation and anomaly annotation without requiring physical system execution. Evaluations on Hadoop and HDFS distributed systems demonstrate that AnomalyGen achieves substantially broader log event coverage (38-95 times improvement over existing datasets) while producing more operationally realistic log sequences compared to static analysis-based approaches. When augmenting benchmark datasets with synthesized logs, we observe maximum F1-score improvements of 3.7% (average 1.8% improvement across three state-of-the-art anomaly detection models). This work not only establishes a high-quality benchmarking resource for automated log analysis but also pioneers a new paradigm for applying large language models (LLMs) in software engineering workflows.
- Abstract(参考訳): 高品質な公開ログデータセットの不足は、ログベースの異常検出技術の進歩において重要なボトルネックとなっている。
現在のデータセットには,(1)不完全事象カバレッジ,(2)静的解析に基づく生成フレームワークによって導入された人工パターン,(3)意味認識の不十分な3つの基本的な制限がある。
これらの課題に対処するために,異常検出用に設計された最初の自動ログ合成フレームワークであるAnomalyGenを紹介する。
提案フレームワークでは,プログラム解析とChain-of-Thought推論(CoT推論)を統合した新しい4段階アーキテクチャを導入し,物理的システム実行を必要とせずに反復的なログ生成と異常アノテーションを実現する。
HadoopとHDFS分散システムの評価によると、AnomalyGenは、静的解析ベースのアプローチと比較して、よりリアルなログシーケンスを生成しながら、ログイベントカバレッジ(既存のデータセットの38~95倍の改善)をはるかに広い範囲で達成している。
合成ログでベンチマークデータセットを増大させると、最大F1スコアの3.7%の改善(最先端の3つの異常検出モデルの平均1.8%の改善)が観測される。
この作業は、自動ログ分析のための高品質なベンチマークリソースを確立するだけでなく、ソフトウェアエンジニアリングワークフローに大規模言語モデル(LLM)を適用するための新しいパラダイムの先駆者でもある。
関連論文リスト
- LogSD: Detecting Anomalies from System Logs through Self-supervised Learning and Frequency-based Masking [14.784236273395017]
我々は,新しい半教師付き自己教師付き学習手法であるLogSDを提案する。
我々は,LogSDが8つの最先端ベンチマーク手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-04-17T12:00:09Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - GLAD: Content-aware Dynamic Graphs For Log Anomaly Detection [49.9884374409624]
GLADは、システムログの異常を検出するように設計されたグラフベースのログ異常検出フレームワークである。
システムログの異常を検出するために設計されたグラフベースのログ異常検出フレームワークであるGLADを紹介する。
論文 参考訳(メタデータ) (2023-09-12T04:21:30Z) - Log-based Anomaly Detection based on EVT Theory with feedback [31.949892354842525]
本研究では,SeaLogと呼ばれる高精度で軽量かつ適応的なログベースの異常検出フレームワークを提案する。
本稿では,リアルタイムな異常検出を行うために,軽量で動的に成長するトリエ構造を用いたTrie-based Detection Agent (TDA)を提案する。
ログデータの進化に対応してTDAの精度を高めるため,専門家からフィードバックを得られるようにした。
論文 参考訳(メタデータ) (2023-06-08T08:34:58Z) - SKTR: Trace Recovery from Stochastically Known Logs [7.882975068446842]
機械学習の発展とセンサデータの利用の増加は、決定論的ログへの依存に挑戦する。
本研究では,現実に忠実な決定論的ログを生成するタスクを定式化する。
効果的なトレースリカバリアルゴリズムは、不確実な設定のために信頼できるプロセスマイニングツールを維持するための強力な助けとなるだろう。
論文 参考訳(メタデータ) (2022-06-25T15:29:20Z) - Hybrid Graph Models for Logic Optimization via Spatio-Temporal
Information [15.850413267830522]
EDAにおけるプロダクション対応MLアプリケーションを妨げるおもな懸念点は、正確性要件と一般化能力である。
本稿では,高精度なQoR推定に対するハイブリッドグラフニューラルネットワーク(GNN)に基づくアプローチを提案する。
3.3百万のデータポイントの評価によると、トレーニング中に見つからないデザインの絶対パーセンテージエラー(MAPE)は1.2%と3.1%に満たない。
論文 参考訳(メタデータ) (2022-01-20T21:12:22Z) - TransLog: A Unified Transformer-based Framework for Log Anomaly
Detection [29.29752871868652]
Ourmethodは、事前学習とアダプタベースのチューニングステージで構成されている。
トレーニング可能なパラメータが少なく、ターゲットドメインでのトレーニングコストも低く、私たちの単純なアプローチは、3つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-12-31T10:46:14Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。