論文の概要: Time to Retrain? Detecting Concept Drifts in Machine Learning Systems
- arxiv url: http://arxiv.org/abs/2410.09190v1
- Date: Fri, 11 Oct 2024 18:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:53:25.710069
- Title: Time to Retrain? Detecting Concept Drifts in Machine Learning Systems
- Title(参考訳): 再訓練に要する時間 : 機械学習システムにおける概念ドリフトの検出
- Authors: Tri Minh Triet Pham, Karthikeyan Premkumar, Mohamed Naili, Jinqiu Yang,
- Abstract要約: 機械学習(ML)モデルにおける概念ドリフトを検出するためのモデル非依存手法(CDSeer)を提案する。
その結果、CDSeerの精度とリコールは最先端と比較して優れており、手作業によるラベリングは極めて少ないことがわかった。
CDSeerのパフォーマンス向上と導入の容易さは、MLシステムをより信頼性の高いものにする上で価値がある。
- 参考スコア(独自算出の注目度): 1.4499463058550683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the boom of machine learning (ML) techniques, software practitioners build ML systems to process the massive volume of streaming data for diverse software engineering tasks such as failure prediction in AIOps. Trained using historical data, such ML models encounter performance degradation caused by concept drift, i.e., data and inter-relationship (concept) changes between training and production. It is essential to use concept rift detection to monitor the deployed ML models and re-train the ML models when needed. In this work, we explore applying state-of-the-art (SOTA) concept drift detection techniques on synthetic and real-world datasets in an industrial setting. Such an industrial setting requires minimal manual effort in labeling and maximal generality in ML model architecture. We find that current SOTA semi-supervised methods not only require significant labeling effort but also only work for certain types of ML models. To overcome such limitations, we propose a novel model-agnostic technique (CDSeer) for detecting concept drift. Our evaluation shows that CDSeer has better precision and recall compared to the state-of-the-art while requiring significantly less manual labeling. We demonstrate the effectiveness of CDSeer at concept drift detection by evaluating it on eight datasets from different domains and use cases. Results from internal deployment of CDSeer on an industrial proprietary dataset show a 57.1% improvement in precision while using 99% fewer labels compared to the SOTA concept drift detection method. The performance is also comparable to the supervised concept drift detection method, which requires 100% of the data to be labeled. The improved performance and ease of adoption of CDSeer are valuable in making ML systems more reliable.
- Abstract(参考訳): 機械学習(ML)技術のブームにより、ソフトウェア実践者は、AIOpsの障害予測など、さまざまなソフトウェアエンジニアリングタスクのための大量のストリーミングデータを処理するために、MLシステムを構築する。
過去のデータを用いてトレーニングされたMLモデルは、概念の漂流に起因するパフォーマンス劣化、すなわち、トレーニングと生産の間のデータと相互関係(概念)の変化に遭遇する。
コンセプトリフット検出を使用して、デプロイされたMLモデルを監視し、必要に応じてMLモデルを再トレーニングすることが不可欠である。
本研究では,産業環境下での合成および実世界のデータセットに対する最新技術(SOTA)の概念ドリフト検出技術の適用について検討する。
このような産業環境では、MLモデルアーキテクチャにおけるラベル付けと最大一般化に最小限の手作業が必要となる。
現在のSOTA半教師付き手法は,ラベル付けに多大な労力を要するだけでなく,特定の種類のMLモデルに対してのみ有効であることがわかった。
このような制約を克服するために,概念ドリフトを検出する新しいモデル非依存手法 (CDSeer) を提案する。
評価の結果,CDSeerの精度とリコールは,手動ラベリングを著しく低減しつつ,最先端技術よりも優れていることがわかった。
異なるドメインとユースケースの8つのデータセット上でCDSeerを評価することにより,概念ドリフト検出におけるCDSeerの有効性を実証する。
工業用プロプライエタリデータセットへのCDSeerの内部展開の結果は、SOTAの概念ドリフト検出法と比較して99%少ないラベルを使用しながら、57.1%の精度の向上を示している。
この性能は、100%データをラベル付けする必要がある教師付きコンセプトドリフト検出法に匹敵する。
CDSeerのパフォーマンス向上と導入の容易さは、MLシステムをより信頼性の高いものにする上で価値がある。
関連論文リスト
- EdgeFD: An Edge-Friendly Drift-Aware Fault Diagnosis System for
Industrial IoT [0.0]
我々は,産業用モノのインターネット(IIoT)における頻繁なデータドリフトによる課題を軽減するため,DAWC(Drift-Aware Weight Consolidation)を提案する。
DAWCは複数のデータドリフトシナリオを効率的に管理し、エッジデバイス上での一定のモデル微調整の必要性を最小限にする。
包括的診断・可視化プラットフォームも開発しました。
論文 参考訳(メタデータ) (2023-10-07T06:48:07Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - CADM: Confusion Model-based Detection Method for Real-drift in Chunk
Data Stream [3.0885191226198785]
コンセプトドリフト検出は、健康モニタリングや故障診断といった現実の多くの応用において重要であることから、かなりの注目を集めている。
本稿では,概念的混乱に基づく限定アノテーションを用いて,チャンクデータストリーム内のリアルタイムドリフトを検出する手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T08:59:27Z) - SECOE: Alleviating Sensors Failure in Machine Learning-Coupled IoT
Systems [0.0]
本論文は,センサ障害を同時に緩和するための積極的なアプローチであるSECOEを提案する。
SECOEは、センサー間の相関を利用してアンサンブル内のモデル数を最小化する新しい技術を含んでいる。
実験の結果,SECOEはセンサ故障の有無の予測精度を効果的に維持することがわかった。
論文 参考訳(メタデータ) (2022-10-05T10:58:39Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z) - Machine Learning Model Drift Detection Via Weak Data Slices [5.319802998033767]
本研究では,データスライスと呼ばれる特徴空間規則を用いてドリフト検出を行う手法を提案する。
提案手法は,基礎となるデータの変化に基づいて,MLモデルが性能を変化させる可能性が示唆される。
論文 参考訳(メタデータ) (2021-08-11T16:55:34Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。