論文の概要: On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations
- arxiv url: http://arxiv.org/abs/2405.03489v1
- Date: Mon, 6 May 2024 14:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 13:36:52.033162
- Title: On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations
- Title(参考訳): 深層学習に基づくログ異常検出におけるデータ再サンプリングの効果:洞察と勧告
- Authors: Xiaoxue Ma, Huiqi Zou, Jacky Keung, Pinjia He, Yishu Li, Xiao Yu, Federica Sarro,
- Abstract要約: ログ異常検出モデルのトレーニングに一般的に使用される公開データのクラス不均衡。
データ再サンプリングによるクラス不均衡の緩和は、他のソフトウェアエンジニアリングタスクに有効であることが証明された。
本研究は,多様なデータ再サンプリング手法が既存のADアプローチに与える影響を詳細に分析する。
- 参考スコア(独自算出の注目度): 10.931620604044486
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Numerous DL-based approaches have garnered considerable attention in the field of software Log Anomaly Detection. However, a practical challenge persists: the class imbalance in the public data commonly used to train the DL models. This imbalance is characterized by a substantial disparity in the number of abnormal log sequences compared to normal ones, for example, anomalies represent less than 1% of one of the most popular datasets. Previous research has indicated that existing DLLAD approaches may exhibit unsatisfactory performance, particularly when confronted with datasets featuring severe class imbalances. Mitigating class imbalance through data resampling has proven effective for other software engineering tasks, however, it has been unexplored for LAD thus far. This study aims to fill this gap by providing an in-depth analysis of the impact of diverse data resampling methods on existing DLLAD approaches from two distinct perspectives. Firstly, we assess the performance of these DLLAD approaches across three datasets and explore the impact of resampling ratios of normal to abnormal data on ten data resampling methods. Secondly, we evaluate the effectiveness of the data resampling methods when utilizing optimal resampling ratios of normal to abnormal data. Our findings indicate that oversampling methods generally outperform undersampling and hybrid methods. Data resampling on raw data yields superior results compared to data resampling in the feature space. In most cases, certain undersampling and hybrid methods show limited effectiveness. Additionally, by exploring the resampling ratio of normal to abnormal data, we suggest generating more data for minority classes through oversampling while removing less data from majority classes through undersampling. In conclusion, our study provides valuable insights into the intricate relationship between data resampling methods and DLLAD.
- Abstract(参考訳): DLベースのアプローチは、ソフトウェアログ異常検出の分野で大きな注目を集めている。
しかし、実際的な課題は、DLモデルのトレーニングに一般的に使用される公開データのクラス不均衡である。
この不均衡は、例えば、異常は最も人気のあるデータセットの1%以下であるなど、通常のものと比較して、異常なログシーケンスの数にかなりの差があることが特徴である。
これまでの研究では、既存のDLLADアプローチは、特に厳しいクラス不均衡を特徴とするデータセットに直面する場合、不満足なパフォーマンスを示す可能性があることが示されている。
データ再サンプリングによるクラス不均衡の緩和は、他のソフトウェアエンジニアリングタスクに有効であることが証明されているが、これまでのところ、LADでは検討されていない。
本研究では, 多様なデータ再サンプリング手法が既存のDLLADアプローチに与える影響を, 2つの異なる視点から詳細に分析することによって, このギャップを埋めることを目的とする。
まず、3つのデータセットにまたがるこれらのDLLAD手法の性能を評価し、正常データと異常データの再サンプリング比率が10種類のデータ再サンプリング方法に与える影響について検討する。
第2に,正常データと異常データの最適再サンプリング率を利用する際のデータ再サンプリング手法の有効性を評価する。
以上の結果から,オーバーサンプリング法は一般にアンダーサンプリング法やハイブリッド法よりも優れていることが示唆された。
生データに対するデータ再サンプリングは、特徴空間におけるデータ再サンプリングよりも優れた結果をもたらす。
ほとんどの場合、特定のアンダーサンプリングとハイブリット法は限定的な効果を示す。
また, 正規値と異常値の再サンプリング比を探索することにより, マイノリティクラスに対するオーバーサンプリングによるデータ生成と, マイノリティクラスからのアンダーサンプリングによるデータ削除を提案する。
本研究は,データ再サンプリング法とDLLADの複雑な関係に関する貴重な知見を提供する。
関連論文リスト
- Leveraging Latent Diffusion Models for Training-Free In-Distribution Data Augmentation for Surface Defect Detection [9.784793380119806]
データ拡張のためのトレーニング不要な拡散型In-Distribution Anomaly GenerationパイプラインであるDIAGを紹介する。
従来の画像生成技術とは異なり、我々は、ドメインの専門家がモデルにマルチモーダルガイダンスを提供する、Human-in-the-loopパイプラインを実装している。
我々は、挑戦的なKSDD2データセットに対する最先端データ拡張アプローチに関して、DIAGの有効性と汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-04T14:28:52Z) - Continuous Treatment Effects with Surrogate Outcomes [12.548638259932915]
持続的治療効果の予測におけるサロゲートの役割について検討した。
そこで本研究では,サロゲートを効率的に分析に組み込む2つの頑健な手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T20:50:18Z) - Efficient Hybrid Oversampling and Intelligent Undersampling for
Imbalanced Big Data Classification [1.03590082373586]
本稿では,MapReduceフレームワークを用いて,インテリジェントアンダーサンプリングとオーバーサンプリングを組み合わせたSMOTENNという新しいリサンプリング手法を提案する。
実験の結果,この手法の利点が示され,小規模・中規模のデータセットに対する代替サンプリング技術よりも優れていた。
論文 参考訳(メタデータ) (2023-10-09T15:22:13Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Causal-BALD: Deep Bayesian Active Learning of Outcomes to Infer
Treatment-Effects from Observational Data [37.15330590319357]
既存のアプローチは、治療と管理のために観察された結果に深いモデルを適用することに依存している。
Deep Bayesian Active Learningは、不確実性の高い点を選択することによって、効率的なデータ取得のためのフレームワークを提供する。
本稿では,重なり合う領域に対するバイアスデータ取得という情報理論に基づく因果的ベイズ獲得機能を紹介する。
論文 参考訳(メタデータ) (2021-11-03T15:11:39Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Discriminative-Generative Dual Memory Video Anomaly Detection [81.09977516403411]
近年,ビデオ異常検出(VAD)には,トレーニングプロセス中に通常のデータに代えて,いくつかの異常を使おうと試みている。
本稿では,いくつかの異常を生かしてデータの不均衡を解決するために,識別生成型デュアルメモリ(dream)異常検出モデルを提案する。
論文 参考訳(メタデータ) (2021-04-29T15:49:01Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Overly Optimistic Prediction Results on Imbalanced Data: a Case Study of
Flaws and Benefits when Applying Over-sampling [13.463035357173045]
データを相互に排他的なトレーニングとテストセットに分割する前にオーバーサンプリングを適用する。
この結果が,2つの人工データセットを用いて偏りを生じさせ,この欠陥が同定された研究結果を再現することを示す。
論文 参考訳(メタデータ) (2020-01-15T12:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。