論文の概要: Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark
- arxiv url: http://arxiv.org/abs/2305.19770v1
- Date: Wed, 31 May 2023 12:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 16:49:25.487499
- Title: Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark
- Title(参考訳): 品質イン/品質アウト:異常検出ベンチマークにおけるデータ品質の評価
- Authors: Jos\'e Camacho, Katarzyna Wasielewska, Marta Fuentes-Garc\'ia, Rafael
Rodr\'iguez-G\'omez
- Abstract要約: 同じベンチマークデータセット(異常検出のためのフローベースリアルタイムデータセットであるUGR'16)に対する比較的小さな変更は、考慮した機械学習技術よりも、モデルパフォーマンスに著しく影響することを示します。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術に,より注意を払う必要があることが示唆された。
- 参考スコア(独自算出の注目度): 0.13764085113103217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous or self-driving networks are expected to provide a solution to the
myriad of extremely demanding new applications in the Future Internet. The key
to handle complexity is to perform tasks like network optimization and failure
recovery with minimal human supervision. For this purpose, the community relies
on the development of new Machine Learning (ML) models and techniques. However,
ML can only be as good as the data it is fitted with. Datasets provided to the
community as benchmarks for research purposes, which have a relevant impact in
research findings and directions, are often assumed to be of good quality by
default. In this paper, we show that relatively minor modifications on the same
benchmark dataset (UGR'16, a flow-based real-traffic dataset for anomaly
detection) cause significantly more impact on model performance than the
specific ML technique considered. To understand this finding, we contribute a
methodology to investigate the root causes for those differences, and to assess
the quality of the data labelling. Our findings illustrate the need to devote
more attention into (automatic) data quality assessment and optimization
techniques in the context of autonomous networks.
- Abstract(参考訳): 自律的または自律的なネットワークは、将来インターネットで非常に要求の多い新しいアプリケーションに対するソリューションを提供すると予想されている。
複雑性に対処する鍵は、最小限の人的監督でネットワーク最適化や障害復旧といったタスクを実行することです。
この目的のために、コミュニティは新しい機械学習(ML)モデルと技術の開発に依存している。
しかし、MLは適合するデータと同程度にしか使えません。
研究目的のベンチマークとしてコミュニティに提供するデータセットは、研究の発見や方向性に影響を及ぼすものであり、しばしばデフォルトでは良質であると仮定される。
本稿では,同一のベンチマークデータセット(UGR'16,フローベースで異常検出を行うリアルタイムデータセット)に対する比較的小さな修正が,特定のML手法よりもモデル性能に著しく影響を与えることを示す。
そこで本研究では,これらの違いの根本原因を解明し,データラベリングの品質を評価する手法を提案する。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術にもっと注意を払う必要があることが示唆された。
関連論文リスト
- A Theoretical Framework for AI-driven data quality monitoring in high-volume data environments [1.2753215270475886]
本稿では,高ボリューム環境におけるデータ品質維持の課題に対処するために,AIによるデータ品質監視システムに関する理論的枠組みを提案する。
本稿では,ビッグデータのスケール,速度,多様性の管理における従来の手法の限界について検討し,高度な機械学習技術を活用した概念的アプローチを提案する。
主なコンポーネントは、インテリジェントデータ取り込み層、適応前処理機構、コンテキスト認識機能抽出、AIベースの品質評価モジュールなどである。
論文 参考訳(メタデータ) (2024-10-11T07:06:36Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Augmented Bilinear Network for Incremental Multi-Stock Time-Series
Classification [83.23129279407271]
本稿では,有価証券のセットで事前学習したニューラルネットワークで利用可能な知識を効率的に保持する手法を提案する。
本手法では,既存の接続を固定することにより,事前学習したニューラルネットワークに符号化された事前知識を維持する。
この知識は、新しいデータを用いて最適化された一連の拡張接続によって、新しい証券に対して調整される。
論文 参考訳(メタデータ) (2022-07-23T18:54:10Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。