Fugu-MT 論文翻訳(概要): Mitigating ML Model Decay in Continuous Integration with Data Drift Detection: An Empirical Study

論文の概要: Mitigating ML Model Decay in Continuous Integration with Data Drift Detection: An Empirical Study

arxiv url: http://arxiv.org/abs/2305.12736v2
Date: Mon, 17 Jul 2023 06:36:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 08:02:43.498667
Title: Mitigating ML Model Decay in Continuous Integration with Data Drift Detection: An Empirical Study
Title（参考訳）: データドリフト検出による継続的統合におけるmlモデル崩壊の軽減--実証的研究
Authors: Ali Kazemi Arani, Triet Huynh Minh Le, Mansooreh Zahedi and Muhammad Ali Babar
Abstract要約: 本研究では,CI環境におけるTCP用MLモデルのリトレーニングポイントを自動的に検出するデータドリフト検出手法の性能について検討する。我々はHellinger距離を用いて入力データの値と分布の変化を同定し、これらの変化をMLモデルの再学習点として利用した。 Hellinger distance-based methodの実験により,再学習点の検出と関連するコストの低減に効果と効率が示された。
参考スコア（独自算出の注目度）: 7.394099294390271
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Background: Machine Learning (ML) methods are being increasingly used for automating different activities, e.g., Test Case Prioritization (TCP), of Continuous Integration (CI). However, ML models need frequent retraining as a result of changes in the CI environment, more commonly known as data drift. Also, continuously retraining ML models consume a lot of time and effort. Hence, there is an urgent need of identifying and evaluating suitable approaches that can help in reducing the retraining efforts and time for ML models used for TCP in CI environments. Aims: This study aims to investigate the performance of using data drift detection techniques for automatically detecting the retraining points for ML models for TCP in CI environments without requiring detailed knowledge of the software projects. Method: We employed the Hellinger distance to identify changes in both the values and distribution of input data and leveraged these changes as retraining points for the ML model. We evaluated the efficacy of this method on multiple datasets and compared the APFDc and NAPFD evaluation metrics against models that were regularly retrained, with careful consideration of the statistical methods. Results: Our experimental evaluation of the Hellinger distance-based method demonstrated its efficacy and efficiency in detecting retraining points and reducing the associated costs. However, the performance of this method may vary depending on the dataset. Conclusions: Our findings suggest that data drift detection methods can assist in identifying retraining points for ML models in CI environments, while significantly reducing the required retraining time. These methods can be helpful for practitioners who lack specialized knowledge of software projects, enabling them to maintain ML model accuracy.
Abstract（参考訳）: 背景: マシンラーニング(ml)メソッドは、継続的インテグレーション(ci)のテストケース優先化(tcp)など、さまざまなアクティビティを自動化するためにますます使われています。しかし、データドリフトとして知られるCI環境の変化の結果、MLモデルは頻繁に再トレーニングする必要がある。また、継続的にトレーニングするMLモデルは、多くの時間と労力を消費します。したがって、CI環境でTCPに使用されるMLモデルの再トレーニングの労力と時間の削減に役立つ適切なアプローチを特定し、評価する必要性が緊急にある。目的: 本研究は,ci環境におけるtcp用mlモデルのリトレーニングポイントを自動的に検出するデータドリフト検出手法の性能を,ソフトウェアプロジェクトの詳細な知識を必要とせずに検証することを目的とした。方法:我々はHellinger距離を用いて入力データの値と分布の変化を同定し,これらの変化をMLモデルの再学習点として利用した。本手法の有効性を複数のデータセットで評価し,APFDcとNAPFDの評価指標を定期的に再訓練されたモデルと比較し,統計的手法を慎重に検討した。結果: Hellinger distance-based method を実験的に評価し,再学習点の検出と関連コストの低減に効果と効率性を示した。しかし,本手法の性能はデータセットによって異なる場合がある。結論:データドリフト検出法は,CI環境におけるMLモデルの再トレーニング点の同定に有効であり,再トレーニング時間を大幅に短縮できる可能性が示唆された。これらの手法は、ソフトウェアプロジェクトの専門知識を欠いた実践者がMLモデルの精度を維持するのに役立つ。

関連論文リスト

Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
AutoML for Multi-Class Anomaly Compensation of Sensor Drift [44.63945828405864]
センサドリフトは、時間とともに機械学習モデルのパフォーマンスを低下させる。標準クロスバリデーション法はドリフトの不適切な会計によって性能を過大評価する。本稿では,(1)モデル検証のための新しいセンサドリフト補償学習パラダイム,(2)分類性能の向上とセンサドリフト補償のための自動機械学習(AutoML)技術を提案する。
論文参考訳（メタデータ） (2025-02-26T14:34:53Z)
Federated Learning with Reservoir State Analysis for Time Series Anomaly Detection [1.1557852082644076]
フェデレートラーニングでは、複数のクライアントによるローカルモデルトレーニングとサーバによるモデル統合は、モデルパラメータ共有によってのみ繰り返される。本研究では,計算効率とデータプライバシ保護を同時に求めるために,貯水池状態解析を用いたフェデレーション学習手法を提案する。時系列異常検出のためのベンチマークデータセットを用いて,InFed MD-RSの性能評価を行った。
論文参考訳（メタデータ） (2025-02-08T20:00:23Z)
SUDS: A Strategy for Unsupervised Drift Sampling [0.5437605013181142]
監視された機械学習は、データ分散が時間とともに変化するコンセプトドリフトに遭遇し、パフォーマンスが低下する。本稿では,既存のドリフト検出アルゴリズムを用いて,同種サンプルを選択する新しい手法であるドリフトサンプリング戦略(SUDS)を提案する。本研究は, 動的環境におけるラベル付きデータ利用の最適化におけるSUDSの有効性を示すものである。
論文参考訳（メタデータ） (2024-11-05T10:55:29Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文参考訳（メタデータ） (2024-01-11T04:59:44Z)
Uncovering Drift in Textual Data: An Unsupervised Method for Detecting and Mitigating Drift in Machine Learning Models [9.035254826664273]
機械学習におけるドリフト(drift)とは、モデルが動作しているデータやコンテキストの統計的性質が時間とともに変化し、性能が低下する現象を指す。提案手法では, 目標分布として生産データのサンプルを符号化し, モデルトレーニングデータを基準分布として符号化する。また,ドリフトの根本原因である生産データのサブセットも同定する。これらの高ドリフトサンプルを用いて再トレーニングしたモデルでは、オンライン顧客エクスペリエンスの品質指標のパフォーマンスが改善された。
論文参考訳（メタデータ） (2023-09-07T16:45:42Z)
Meta-Learning for Airflow Simulations with Graph Neural Networks [3.52359746858894]
本稿では,OoD(Out-of-distribution)サンプルにおける学習モデルの性能向上のためのメタラーニング手法を提案する。具体的には,各気翼上のCFD内の気流シミュレーションをメタラーニング問題として設定し,一つの気翼形状で定義された各例を個別のタスクとして扱う。学習モデルのOoD一般化性能向上のための提案手法の有効性を実験的に検証した。
論文参考訳（メタデータ） (2023-06-18T19:25:13Z)
Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文参考訳（メタデータ） (2023-06-09T18:40:55Z)
On the Costs and Benefits of Adopting Lifelong Learning for Software Analytics -- Empirical Study on Brown Build and Risk Prediction [17.502553991799832]
本稿では,ユビソフトにおける産業用ユースケースにおける生涯学習(LL)の利用について検討する。 LLは、新しいデータを使用して古いモデルを段階的に更新するインクリメンタルラーナを使用して、MLベースのソフトウェア分析ツールを継続的に構築し、メンテナンスするために使用される。
論文参考訳（メタデータ） (2023-05-16T21:57:16Z)
Incremental Online Learning Algorithms Comparison for Gesture and Visual Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文参考訳（メタデータ） (2022-09-01T17:05:20Z)
Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文参考訳（メタデータ） (2021-06-14T11:42:46Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Transfer Learning without Knowing: Reprogramming Black-box Machine Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。 BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文参考訳（メタデータ） (2020-07-17T01:52:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。