論文の概要: On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations
- arxiv url: http://arxiv.org/abs/2405.03489v2
- Date: Tue, 22 Oct 2024 13:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:54.278706
- Title: On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations
- Title(参考訳): 深層学習に基づくログ異常検出におけるデータ再サンプリングの効果:洞察と勧告
- Authors: Xiaoxue Ma, Huiqi Zou, Pinjia He, Jacky Keung, Yishu Li, Xiao Yu, Federica Sarro,
- Abstract要約: 本研究は,多様なデータ再サンプリング手法が既存のADアプローチに与える影響を詳細に分析する。
クラス不均衡のレベルが異なる4つのデータセットにまたがるこれらのADアプローチの性能を評価する。
正常なデータと異常なデータの最適な再サンプリング率を利用する際のデータ再サンプリング手法の有効性を評価する。
- 参考スコア(独自算出の注目度): 10.931620604044486
- License:
- Abstract: Numerous Deep Learning (DL)-based approaches have gained attention in software Log Anomaly Detection (LAD), yet class imbalance in training data remains a challenge, with anomalies often comprising less than 1\% of datasets like Thunderbird. Existing DLLAD methods may underperform in severely imbalanced datasets. Although data resampling has proven effective in other software engineering tasks, it has not been explored in LAD. This study aims to fill this gap by providing an in-depth analysis of the impact of diverse data resampling methods on existing DLLAD approaches from two distinct perspectives. Firstly, we assess the performance of these DLLAD approaches across four datasets with different levels of class imbalance, and we explore the impact of resampling ratios of normal to abnormal data on DLLAD approaches. Secondly, we evaluate the effectiveness of the data resampling methods when utilizing optimal resampling ratios of normal to abnormal data. Our findings indicate that oversampling methods generally outperform undersampling and hybrid sampling methods. Data resampling on raw data yields superior results compared to data resampling in the feature space. These improvements are attributed to the increased attention given to important tokens. By exploring the resampling ratio of normal to abnormal data, we suggest generating more data for minority classes through oversampling while removing less data from majority classes through undersampling. In conclusion, our study provides valuable insights into the intricate relationship between data resampling methods and DLLAD. By addressing the challenge of class imbalance, researchers and practitioners can enhance DLLAD performance.
- Abstract(参考訳): 多数のディープラーニング(DL)ベースのアプローチは、ログ異常検出(LAD)ソフトウェアで注目を集めているが、トレーニングデータのクラス不均衡は依然として問題であり、Thunderbirdのようなデータセットの1/%以下であることが多い。
既存のDLLADメソッドは、非常に不均衡なデータセットで性能が劣る可能性がある。
データ再サンプリングは他のソフトウェア工学のタスクでも有効であることが証明されているが、LADでは研究されていない。
本研究では, 多様なデータ再サンプリング手法が既存のDLLADアプローチに与える影響を, 2つの異なる視点から詳細に分析することによって, このギャップを埋めることを目的とする。
まず、クラス不均衡のレベルが異なる4つのデータセットにまたがるこれらのDLLADアプローチの性能を評価し、DLLADアプローチにおける正常データと異常データの再サンプリング比率の影響について検討する。
第2に,正常データと異常データの最適再サンプリング率を利用する際のデータ再サンプリング手法の有効性を評価する。
その結果,オーバーサンプリング法は一般にアンダーサンプリング法やハイブリッドサンプリング法よりも優れていた。
生データに対するデータ再サンプリングは、特徴空間におけるデータ再サンプリングよりも優れた結果をもたらす。
これらの改善は重要なトークンに注意が向けられたためである。
正常なデータと異常なデータの再サンプリング比を探索することにより、少数クラスのデータをオーバーサンプリングし、多数派クラスからアンダーサンプリングによって少ないデータを取り除き、より多くのデータを生成することを提案する。
本研究は,データ再サンプリング法とDLLADの複雑な関係に関する貴重な知見を提供する。
クラス不均衡の課題に対処することで、研究者と実践者はDLLADのパフォーマンスを向上させることができる。
関連論文リスト
- A Bilevel Optimization Framework for Imbalanced Data Classification [1.6385815610837167]
合成データによるノイズや重なりの落とし穴を回避する新しいアンダーサンプリング手法を提案する。
多数データをランダムにアンサンプするのではなく、モデル損失を改善する能力に基づいてデータポイントをアンアンサンプする。
本手法は,モデル損失の改善を指標として,データポイントが損失に与える影響を評価し,それを改善することができない者を拒絶する。
論文 参考訳(メタデータ) (2024-10-15T01:17:23Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Wireless Channel Aware Data Augmentation Methods for Deep Learning-Based Indoor Localization [22.76179980847908]
本稿では,無線伝搬チャネルやデバイスに関するドメイン知識を活用する手法を提案する。
低データ体制では、ローカライゼーション精度は50%まで上昇し、高データ体制における非増大した結果と一致することを示す。
提案手法は,測定データ量の1/4しか使用せず,最大で33%のハイデータ性能を達成できる。
論文 参考訳(メタデータ) (2024-08-12T19:01:49Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Leveraging Latent Diffusion Models for Training-Free In-Distribution Data Augmentation for Surface Defect Detection [9.784793380119806]
データ拡張のためのトレーニング不要な拡散型In-Distribution Anomaly GenerationパイプラインであるDIAGを紹介する。
従来の画像生成技術とは異なり、我々は、ドメインの専門家がモデルにマルチモーダルガイダンスを提供する、Human-in-the-loopパイプラインを実装している。
我々は、挑戦的なKSDD2データセットに対する最先端データ拡張アプローチに関して、DIAGの有効性と汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-04T14:28:52Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - Deep Stable Learning for Out-Of-Distribution Generalization [27.437046504902938]
深層ニューラルネットワークに基づくアプローチは、同様の分布を持つデータとトレーニングデータをテストする際に顕著なパフォーマンスを達成した。
トレーニングとテストデータ間の分散シフトの影響を排除することは、パフォーマンス向上の深層モデルの構築に不可欠です。
トレーニングサンプルの学習重みによる特徴間の依存関係を除去し,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-16T03:54:21Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。