論文の概要: Mitigating ML Model Decay in Continuous Integration with Data Drift
Detection: An Empirical Study
- arxiv url: http://arxiv.org/abs/2305.12736v2
- Date: Mon, 17 Jul 2023 06:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 08:02:43.498667
- Title: Mitigating ML Model Decay in Continuous Integration with Data Drift
Detection: An Empirical Study
- Title(参考訳): データドリフト検出による継続的統合におけるmlモデル崩壊の軽減--実証的研究
- Authors: Ali Kazemi Arani, Triet Huynh Minh Le, Mansooreh Zahedi and Muhammad
Ali Babar
- Abstract要約: 本研究では,CI環境におけるTCP用MLモデルのリトレーニングポイントを自動的に検出するデータドリフト検出手法の性能について検討する。
我々はHellinger距離を用いて入力データの値と分布の変化を同定し、これらの変化をMLモデルの再学習点として利用した。
Hellinger distance-based methodの実験により,再学習点の検出と関連するコストの低減に効果と効率が示された。
- 参考スコア(独自算出の注目度): 7.394099294390271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Machine Learning (ML) methods are being increasingly used for
automating different activities, e.g., Test Case Prioritization (TCP), of
Continuous Integration (CI). However, ML models need frequent retraining as a
result of changes in the CI environment, more commonly known as data drift.
Also, continuously retraining ML models consume a lot of time and effort.
Hence, there is an urgent need of identifying and evaluating suitable
approaches that can help in reducing the retraining efforts and time for ML
models used for TCP in CI environments. Aims: This study aims to investigate
the performance of using data drift detection techniques for automatically
detecting the retraining points for ML models for TCP in CI environments
without requiring detailed knowledge of the software projects. Method: We
employed the Hellinger distance to identify changes in both the values and
distribution of input data and leveraged these changes as retraining points for
the ML model. We evaluated the efficacy of this method on multiple datasets and
compared the APFDc and NAPFD evaluation metrics against models that were
regularly retrained, with careful consideration of the statistical methods.
Results: Our experimental evaluation of the Hellinger distance-based method
demonstrated its efficacy and efficiency in detecting retraining points and
reducing the associated costs. However, the performance of this method may vary
depending on the dataset. Conclusions: Our findings suggest that data drift
detection methods can assist in identifying retraining points for ML models in
CI environments, while significantly reducing the required retraining time.
These methods can be helpful for practitioners who lack specialized knowledge
of software projects, enabling them to maintain ML model accuracy.
- Abstract(参考訳): 背景: マシンラーニング(ml)メソッドは、継続的インテグレーション(ci)のテストケース優先化(tcp)など、さまざまなアクティビティを自動化するためにますます使われています。
しかし、データドリフトとして知られるCI環境の変化の結果、MLモデルは頻繁に再トレーニングする必要がある。
また、継続的にトレーニングするMLモデルは、多くの時間と労力を消費します。
したがって、CI環境でTCPに使用されるMLモデルの再トレーニングの労力と時間の削減に役立つ適切なアプローチを特定し、評価する必要性が緊急にある。
目的: 本研究は,ci環境におけるtcp用mlモデルのリトレーニングポイントを自動的に検出するデータドリフト検出手法の性能を,ソフトウェアプロジェクトの詳細な知識を必要とせずに検証することを目的とした。
方法:我々はHellinger距離を用いて入力データの値と分布の変化を同定し,これらの変化をMLモデルの再学習点として利用した。
本手法の有効性を複数のデータセットで評価し,APFDcとNAPFDの評価指標を定期的に再訓練されたモデルと比較し,統計的手法を慎重に検討した。
結果: Hellinger distance-based method を実験的に評価し,再学習点の検出と関連コストの低減に効果と効率性を示した。
しかし,本手法の性能はデータセットによって異なる場合がある。
結論:データドリフト検出法は,CI環境におけるMLモデルの再トレーニング点の同定に有効であり,再トレーニング時間を大幅に短縮できる可能性が示唆された。
これらの手法は、ソフトウェアプロジェクトの専門知識を欠いた実践者がMLモデルの精度を維持するのに役立つ。
関連論文リスト
- SUDS: A Strategy for Unsupervised Drift Sampling [0.5437605013181142]
監視された機械学習は、データ分散が時間とともに変化するコンセプトドリフトに遭遇し、パフォーマンスが低下する。
本稿では,既存のドリフト検出アルゴリズムを用いて,同種サンプルを選択する新しい手法であるドリフトサンプリング戦略(SUDS)を提案する。
本研究は, 動的環境におけるラベル付きデータ利用の最適化におけるSUDSの有効性を示すものである。
論文 参考訳(メタデータ) (2024-11-05T10:55:29Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - Uncovering Drift in Textual Data: An Unsupervised Method for Detecting
and Mitigating Drift in Machine Learning Models [9.035254826664273]
機械学習におけるドリフト(drift)とは、モデルが動作しているデータやコンテキストの統計的性質が時間とともに変化し、性能が低下する現象を指す。
提案手法では, 目標分布として生産データのサンプルを符号化し, モデルトレーニングデータを基準分布として符号化する。
また,ドリフトの根本原因である生産データのサブセットも同定する。
これらの高ドリフトサンプルを用いて再トレーニングしたモデルでは、オンライン顧客エクスペリエンスの品質指標のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2023-09-07T16:45:42Z) - Meta-Learning for Airflow Simulations with Graph Neural Networks [3.52359746858894]
本稿では,OoD(Out-of-distribution)サンプルにおける学習モデルの性能向上のためのメタラーニング手法を提案する。
具体的には,各気翼上のCFD内の気流シミュレーションをメタラーニング問題として設定し,一つの気翼形状で定義された各例を個別のタスクとして扱う。
学習モデルのOoD一般化性能向上のための提案手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2023-06-18T19:25:13Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - On the Costs and Benefits of Adopting Lifelong Learning for Software
Analytics -- Empirical Study on Brown Build and Risk Prediction [17.502553991799832]
本稿では,ユビソフトにおける産業用ユースケースにおける生涯学習(LL)の利用について検討する。
LLは、新しいデータを使用して古いモデルを段階的に更新するインクリメンタルラーナを使用して、MLベースのソフトウェア分析ツールを継続的に構築し、メンテナンスするために使用される。
論文 参考訳(メタデータ) (2023-05-16T21:57:16Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。