論文の概要: Uncovering Drift in Textual Data: An Unsupervised Method for Detecting
and Mitigating Drift in Machine Learning Models
- arxiv url: http://arxiv.org/abs/2309.03831v1
- Date: Thu, 7 Sep 2023 16:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 12:07:05.186849
- Title: Uncovering Drift in Textual Data: An Unsupervised Method for Detecting
and Mitigating Drift in Machine Learning Models
- Title(参考訳): テキストデータ中のドリフトの解明 : 機械学習モデルにおけるドリフトの検出と緩和のための教師なし手法
- Authors: Saeed Khaki, Akhouri Abhinav Aditya, Zohar Karnin, Lan Ma, Olivia Pan,
Samarth Marudheri Chandrashekar
- Abstract要約: 機械学習におけるドリフト(drift)とは、モデルが動作しているデータやコンテキストの統計的性質が時間とともに変化し、性能が低下する現象を指す。
提案手法では, 目標分布として生産データのサンプルを符号化し, モデルトレーニングデータを基準分布として符号化する。
また,ドリフトの根本原因である生産データのサブセットも同定する。
これらの高ドリフトサンプルを用いて再トレーニングしたモデルでは、オンライン顧客エクスペリエンスの品質指標のパフォーマンスが改善された。
- 参考スコア(独自算出の注目度): 9.035254826664273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drift in machine learning refers to the phenomenon where the statistical
properties of data or context, in which the model operates, change over time
leading to a decrease in its performance. Therefore, maintaining a constant
monitoring process for machine learning model performance is crucial in order
to proactively prevent any potential performance regression. However,
supervised drift detection methods require human annotation and consequently
lead to a longer time to detect and mitigate the drift. In our proposed
unsupervised drift detection method, we follow a two step process. Our first
step involves encoding a sample of production data as the target distribution,
and the model training data as the reference distribution. In the second step,
we employ a kernel-based statistical test that utilizes the maximum mean
discrepancy (MMD) distance metric to compare the reference and target
distributions and estimate any potential drift. Our method also identifies the
subset of production data that is the root cause of the drift. The models
retrained using these identified high drift samples show improved performance
on online customer experience quality metrics.
- Abstract(参考訳): 機械学習におけるドリフト(drift)とは、モデルが動作しているデータやコンテキストの統計的性質が時間とともに変化し、性能が低下する現象を指す。
したがって、潜在的な性能低下を積極的に防止するためには、機械学習モデル性能の定常的な監視プロセスを維持することが不可欠である。
しかし、教師付きドリフト検出法は人間の注意を必要とするため、ドリフトの検出と緩和に長い時間がかかる。
提案する非教師なしドリフト検出法では,2段階のドリフト検出を行う。
最初のステップでは,生産データのサンプルを対象分布として,モデルトレーニングデータを基準分布として符号化する。
第2のステップでは、最大平均誤差距離(MMD)を用いて、基準分布と目標分布を比較し、潜在的なドリフトを推定するカーネルベースの統計テストを用いる。
また,本手法では,ドリフトの根本原因である生産データのサブセットを同定する。
これらの高ドリフトサンプルを用いて再トレーニングしたモデルでは、オンライン顧客エクスペリエンスの品質指標のパフォーマンスが改善された。
関連論文リスト
- Cluster Analysis and Concept Drift Detection in Malware [1.3812010983144798]
概念ドリフト(concept drift)とは、機械学習モデルの精度に影響を与えるデータの特性の漸進的または突然の変化を指す。
マルウェア領域におけるコンセプトドリフトを検出するためのクラスタリングに基づく手法を提案し,解析する。
論文 参考訳(メタデータ) (2025-02-19T22:42:30Z) - SUDS: A Strategy for Unsupervised Drift Sampling [0.5437605013181142]
監視された機械学習は、データ分散が時間とともに変化するコンセプトドリフトに遭遇し、パフォーマンスが低下する。
本稿では,既存のドリフト検出アルゴリズムを用いて,同種サンプルを選択する新しい手法であるドリフトサンプリング戦略(SUDS)を提案する。
本研究は, 動的環境におけるラベル付きデータ利用の最適化におけるSUDSの有効性を示すものである。
論文 参考訳(メタデータ) (2024-11-05T10:55:29Z) - Data-driven Bayesian State Estimation with Compressed Measurement of Model-free Process using Semi-supervised Learning [57.04370580292727]
研究テーマは、圧縮測定によるデータ駆動ベイズ状態推定である。
状態の基本的な力学モデルは未知であると仮定される。
既存の2つの教師なし学習ベースのデータ駆動手法は、BSCMの問題に対処できない。
論文 参考訳(メタデータ) (2024-07-10T05:03:48Z) - EdgeFD: An Edge-Friendly Drift-Aware Fault Diagnosis System for
Industrial IoT [0.0]
我々は,産業用モノのインターネット(IIoT)における頻繁なデータドリフトによる課題を軽減するため,DAWC(Drift-Aware Weight Consolidation)を提案する。
DAWCは複数のデータドリフトシナリオを効率的に管理し、エッジデバイス上での一定のモデル微調整の必要性を最小限にする。
包括的診断・可視化プラットフォームも開発しました。
論文 参考訳(メタデータ) (2023-10-07T06:48:07Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Autoregressive based Drift Detection Method [0.0]
我々はADDMと呼ばれる自己回帰モデルに基づく新しい概念ドリフト検出手法を提案する。
以上の結果から,新しいドリフト検出法は最先端ドリフト検出法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-09T14:36:16Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Unsupervised Model Drift Estimation with Batch Normalization Statistics
for Dataset Shift Detection and Model Selection [0.0]
本研究では,未ラベル試験データに基づくバッチ正規化層の統計量を利用したモデルドリフト推定手法を提案する。
本手法は,モデル動物園内に複数の候補モデルが存在する場合のモデル選択だけでなく,教師なしの方法でのトレーニングトラジェクトリにおいても有効であることを示す。
論文 参考訳(メタデータ) (2021-07-01T03:04:47Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。