論文の概要: Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark
- arxiv url: http://arxiv.org/abs/2305.19770v1
- Date: Wed, 31 May 2023 12:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 16:49:25.487499
- Title: Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark
- Title(参考訳): 品質イン/品質アウト:異常検出ベンチマークにおけるデータ品質の評価
- Authors: Jos\'e Camacho, Katarzyna Wasielewska, Marta Fuentes-Garc\'ia, Rafael
Rodr\'iguez-G\'omez
- Abstract要約: 同じベンチマークデータセット(異常検出のためのフローベースリアルタイムデータセットであるUGR'16)に対する比較的小さな変更は、考慮した機械学習技術よりも、モデルパフォーマンスに著しく影響することを示します。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術に,より注意を払う必要があることが示唆された。
- 参考スコア(独自算出の注目度): 0.13764085113103217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous or self-driving networks are expected to provide a solution to the
myriad of extremely demanding new applications in the Future Internet. The key
to handle complexity is to perform tasks like network optimization and failure
recovery with minimal human supervision. For this purpose, the community relies
on the development of new Machine Learning (ML) models and techniques. However,
ML can only be as good as the data it is fitted with. Datasets provided to the
community as benchmarks for research purposes, which have a relevant impact in
research findings and directions, are often assumed to be of good quality by
default. In this paper, we show that relatively minor modifications on the same
benchmark dataset (UGR'16, a flow-based real-traffic dataset for anomaly
detection) cause significantly more impact on model performance than the
specific ML technique considered. To understand this finding, we contribute a
methodology to investigate the root causes for those differences, and to assess
the quality of the data labelling. Our findings illustrate the need to devote
more attention into (automatic) data quality assessment and optimization
techniques in the context of autonomous networks.
- Abstract(参考訳): 自律的または自律的なネットワークは、将来インターネットで非常に要求の多い新しいアプリケーションに対するソリューションを提供すると予想されている。
複雑性に対処する鍵は、最小限の人的監督でネットワーク最適化や障害復旧といったタスクを実行することです。
この目的のために、コミュニティは新しい機械学習(ML)モデルと技術の開発に依存している。
しかし、MLは適合するデータと同程度にしか使えません。
研究目的のベンチマークとしてコミュニティに提供するデータセットは、研究の発見や方向性に影響を及ぼすものであり、しばしばデフォルトでは良質であると仮定される。
本稿では,同一のベンチマークデータセット(UGR'16,フローベースで異常検出を行うリアルタイムデータセット)に対する比較的小さな修正が,特定のML手法よりもモデル性能に著しく影響を与えることを示す。
そこで本研究では,これらの違いの根本原因を解明し,データラベリングの品質を評価する手法を提案する。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術にもっと注意を払う必要があることが示唆された。
関連論文リスト
- Linear Discriminant Analysis in Credit Scoring: A Transparent Hybrid Model Approach [9.88281854509076]
特徴量削減手法として線形判別分析 (LDA) を実装し, モデルの複雑さの軽減を図る。
我々のハイブリッドモデルであるXG-DNNは、99.45%の精度と99%のF1スコアでLDAを上回りました。
モデル決定を解釈するために、LIME (local) と Morris Sensitivity Analysis (global) という2つの異なる説明可能なAI技術を適用した。
論文 参考訳(メタデータ) (2024-12-05T14:21:18Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Building Robust Machine Learning Models for Small Chemical Science Data:
The Case of Shear Viscosity [3.4761212729163313]
我々はLennard-Jones (LJ)流体のせん断粘度を予測するために、いくつかの機械学習モデルを訓練する。
具体的には,モデル選択,性能評価,不確実性定量化に関する課題について検討した。
論文 参考訳(メタデータ) (2022-08-23T07:33:14Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。