Fugu-MT 論文翻訳(概要): LLM meets ML: Data-efficient Anomaly Detection on Unseen Unstable Logs

論文の概要: LLM meets ML: Data-efficient Anomaly Detection on Unseen Unstable Logs

arxiv url: http://arxiv.org/abs/2406.07467v2
Date: Mon, 07 Apr 2025 20:52:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 01:58:00.212624
Title: LLM meets ML: Data-efficient Anomaly Detection on Unseen Unstable Logs
Title（参考訳）: LLMがMLに到達: 見えないログにおけるデータ効率のよい異常検出
Authors: Fatemeh Hadadi, Qinghua Xu, Domenico Bianculli, Lionel Briand,
Abstract要約: 不安定なログ(ULAD)の異常検出は、より現実的で、未検討の課題である。現在のアプローチは主に機械学習(ML)モデルを採用しており、トレーニングには広範なラベル付きデータを必要とすることが多い。我々は、アンサンブル学習を通じて、決定木、k-アネレスト隣人、フィードフォワードニューラルネットワークといったMLモデルを組み合わせた、ULADのための新しいハイブリッドアプローチであるFlexLogを提案する。
参考スコア（独自算出の注目度）: 1.9713190626298576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most log-based anomaly detectors assume logs are stable, though logs are often unstable due to software or environmental changes. Anomaly detection on unstable logs (ULAD) is therefore a more realistic, yet under-investigated challenge. Current approaches predominantly employ machine learning (ML) models, which often require extensive labeled data for training. To mitigate data insufficiency, we propose FlexLog, a novel hybrid approach for ULAD that combines ML models -- decision tree, k-nearest neighbors, and a feedforward neural network -- with a Large Language Model (Mistral) through ensemble learning. FlexLog also incorporates a cache and retrieval-augmented generation (RAG) to further enhance efficiency and effectiveness. To evaluate FlexLog, we configured four datasets for ULAD, namely ADFA-U, LOGEVOL-U, SynHDFS-U, and SYNEVOL-U. FlexLog outperforms all baselines by at least 1.2 percentage points in F1 score while using 62.87 percentage points less labeled data. When trained on the same amount of data as the baselines, FlexLog achieves up to a 13 percentage points increase in F1 score on ADFA-U across varying training dataset sizes. Additionally, FlexLog maintains inference time under one second per log sequence, making it suitable for most applications except latency-sensitive systems. Further analysis reveals the positive impact of FlexLog's key components: cache, RAG and ensemble learning.
Abstract（参考訳）: ほとんどのログベースの異常検知器は、ログが安定であると仮定するが、ソフトウェアや環境の変化のため、ログは不安定であることが多い。したがって、不安定なログ(ULAD)の異常検出は、より現実的で、未調査の課題である。現在のアプローチは主に機械学習(ML)モデルを採用しており、トレーニングには広範なラベル付きデータを必要とすることが多い。データ不足を軽減するために、私たちは、決定ツリー、k-nearest隣人、フィードフォワードニューラルネットワークといったMLモデルと、アンサンブル学習によるLarge Language Model(Mistral)を組み合わせた、ULADの新しいハイブリッドアプローチであるFlexLogを提案する。 FlexLogにはキャッシュと検索拡張ジェネレーション(RAG)も組み込まれており、効率性と効率性をさらに向上させる。 FlexLogの評価には,ADFA-U,LOGEVOL-U,SynHDFS-U,SynEVOL-Uの4つのデータセットを設定した。 FlexLogはF1のスコアにおいて、全てのベースラインを少なくとも1.2ポイント上回り、62.87ポイントのラベル付きデータを使用する。ベースラインと同じ量のデータをトレーニングすると、FlexLogはトレーニングデータセットのサイズによって、ADFA-UのF1スコアが最大で13パーセント増加します。さらにFlexLogは、ログシーケンス当たり1秒未満の推論時間を維持しており、レイテンシに敏感なシステムを除くほとんどのアプリケーションに適している。さらに分析した結果、FlexLogの主要なコンポーネントであるキャッシュ、RAG、アンサンブル学習の影響が明らかになった。

関連論文リスト

Improve Large Language Model Systems with User Logs [31.771424321946782]
UNOは、ユーザログで大きな言語モデル(LLM)を改善するためのフレームワークである。ログを半構造化されたルールと好みのペアに抽出し、クエリとフィードバックによるクラスタリングを使用してデータの異質性を管理する。 UNOは最先端の有効性と効率を達成し、検索拡張生成(RAG)とメモリベースラインを大きく上回っている。
論文参考訳（メタデータ） (2026-02-06T07:55:26Z)
R-Log: Incentivizing Log Analysis Capability in LLMs via Reasoning-based Reinforcement Learning [19.713020881817588]
R-Logは、人間のエンジニアの構造的、ステップバイステップの分析プロセスを反映した、推論に基づく新しいパラダイムである。 R-Logは、手動のO&Mプラクティスから13の戦略によってガイドされた、2k以上の推論トラジェクトリのキュレートデータセットで最初にコールドスタートされる。実世界のログに対する実証的な評価は、R-Logが5つのログ解析タスクで既存のメソッドより優れていることを示している。
論文参考訳（メタデータ） (2025-09-30T09:19:31Z)
Cross-System Software Log-based Anomaly Detection Using Meta-Learning [17.39262430769509]
AIOpsツールは、ソフトウェアシステムのログベースの異常検出プロセスを自動化するために開発されている。この分野では、高いデータラベリングコスト、動的システムのログの進化、異なるシステム間の適応性という、3つの実践的な課題が広く認識されている。これらの課題に対応するために特別に設計された,ログイベントレベルの異常検出のためのAIOpsツールであるCroSysLogを提案する。
論文参考訳（メタデータ） (2024-12-19T22:55:45Z)
LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文参考訳（メタデータ） (2024-08-25T05:34:24Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
LUNAR: Unsupervised LLM-based Log Parsing [34.344687402936835]
LUNARは,効率的かつ市販のログ解析のための教師なし手法である。我々の重要な洞察は、LSMは直接ログ解析に苦労するかもしれないが、それらの性能は比較分析によって大幅に向上できるということである。大規模な公開データセットの実験は、LUNARが精度と効率の点で最先端のログクラフトを著しく上回っていることを示している。
論文参考訳（メタデータ） (2024-06-11T11:32:01Z)
Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文参考訳（メタデータ） (2024-06-11T01:16:10Z)
Squeezing Lemons with Hammers: An Evaluation of AutoML and Tabular Deep Learning for Data-Scarce Classification Applications [2.663744975320783]
L2正規化ロジスティック回帰は、最先端の自動機械学習(AutoML)フレームワークと同様の性能を発揮する。データスカースアプリケーションの第1選択として、ロジスティック回帰を考慮することをお勧めします。
論文参考訳（メタデータ） (2024-05-13T11:43:38Z)
Semi-supervised learning via DQN for log anomaly detection [1.5339370927841764]
ログ異常検出における現在の手法は、ラベルなしデータの未使用、正規クラスと異常クラスのデータの不均衡、偽陽性と偽陰性率などの課題に直面している。本稿では,DQNLogと呼ばれる半教師付きログ異常検出手法を提案する。広く使われている3つのデータセット上でDQNLogを評価し、大規模未ラベルデータを効果的に活用できることを実証した。
論文参考訳（メタデータ） (2024-01-06T08:04:13Z)
LogGPT: Log Anomaly Detection via GPT [15.790373280124196]
ログ異常検出にGPTを用いた新しいフレームワークであるLogGPTを提案する。 LogGPTは、まず、前回のシーケンスに基づいて次のログエントリを予測するように訓練される。本稿では,ログ異常検出タスクに特化してモデルを微調整する新しい強化学習手法を提案する。
論文参考訳（メタデータ） (2023-09-25T19:29:50Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Log-based Anomaly Detection based on EVT Theory with feedback [31.949892354842525]
本研究では,SeaLogと呼ばれる高精度で軽量かつ適応的なログベースの異常検出フレームワークを提案する。本稿では,リアルタイムな異常検出を行うために,軽量で動的に成長するトリエ構造を用いたTrie-based Detection Agent (TDA)を提案する。ログデータの進化に対応してTDAの精度を高めるため,専門家からフィードバックを得られるようにした。
論文参考訳（メタデータ） (2023-06-08T08:34:58Z)
EvLog: Identifying Anomalous Logs over Software Evolution [31.46106509190191]
解析なしでログを処理するためのEvolving Log extractor (EvLog) という新しい教師なし手法を提案する。 EvLogは、異常なログを識別し、不安定なシーケンスによって引き起こされる問題を回避するために、注意機構を備えた異常判別器を実装している。 EvLogは、平均F1スコアが0.955と0.847の2つの実世界のシステム進化ログデータセットにおいて、それぞれバージョン内設定とバージョン間設定で有効であることを示した。
論文参考訳（メタデータ） (2023-06-02T12:58:00Z)
FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。 MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文参考訳（メタデータ） (2023-04-08T07:34:26Z)
PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2023-01-25T16:34:43Z)
LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文参考訳（メタデータ） (2021-11-02T15:16:08Z)
DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文参考訳（メタデータ） (2021-09-08T14:07:55Z)
Robust and Transferable Anomaly Detection in Log Data using Pre-Trained Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-02-23T09:17:05Z)
Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文参考訳（メタデータ） (2020-12-04T19:21:37Z)
Self-Attentive Classification-Based Anomaly Detection in Unstructured Logs [59.04636530383049]
ログ表現を学習するための分類法であるLogsyを提案する。従来の方法と比較して,F1スコアの平均0.25の改善を示す。
論文参考訳（メタデータ） (2020-08-21T07:26:55Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。