論文の概要: Cost-Effective Retraining of Machine Learning Models
- arxiv url: http://arxiv.org/abs/2310.04216v1
- Date: Fri, 6 Oct 2023 13:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 16:16:56.861269
- Title: Cost-Effective Retraining of Machine Learning Models
- Title(参考訳): 機械学習モデルのコスト効果リトレーニング
- Authors: Ananth Mahadevan and Michael Mathioudakis
- Abstract要約: データが時間とともに変化するにつれて、そのパフォーマンスを維持するためには、機械学習(ML)モデルを再トレーニングすることが重要です。
これにより、再トレーニングの頻度が高過ぎると、不要な計算コストが発生し、再トレーニングが不十分になる。
本稿では,MLモデルをいつ再トレーニングするかを自動かつ費用対効果で決定するMLシステムを提案する。
- 参考スコア(独自算出の注目度): 2.9461360639852914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is important to retrain a machine learning (ML) model in order to maintain
its performance as the data changes over time. However, this can be costly as
it usually requires processing the entire dataset again. This creates a
trade-off between retraining too frequently, which leads to unnecessary
computing costs, and not retraining often enough, which results in stale and
inaccurate ML models. To address this challenge, we propose ML systems that
make automated and cost-effective decisions about when to retrain an ML model.
We aim to optimize the trade-off by considering the costs associated with each
decision. Our research focuses on determining whether to retrain or keep an
existing ML model based on various factors, including the data, the model, and
the predictive queries answered by the model. Our main contribution is a
Cost-Aware Retraining Algorithm called Cara, which optimizes the trade-off over
streams of data and queries. To evaluate the performance of Cara, we analyzed
synthetic datasets and demonstrated that Cara can adapt to different data
drifts and retraining costs while performing similarly to an optimal
retrospective algorithm. We also conducted experiments with real-world datasets
and showed that Cara achieves better accuracy than drift detection baselines
while making fewer retraining decisions, ultimately resulting in lower total
costs.
- Abstract(参考訳): データは時間とともに変化するので、パフォーマンスを維持するために機械学習(ML)モデルを再訓練することが重要です。
しかし、データセット全体を再び処理する必要があるため、これはコストがかかる可能性がある。
これにより、再トレーニングの頻度が高過ぎると、不要な計算コストが発生し、再トレーニングが不十分になるため、MLモデルが不安定で不正確なものになる。
この課題に対処するため,MLモデルをいつ再トレーニングするかを自動かつ費用対効果で決定するMLシステムを提案する。
各決定に関連するコストを考慮してトレードオフを最適化することを目指している。
本研究は、データ、モデル、およびモデルが応答する予測クエリを含むさまざまな要因に基づいて、既存のmlモデルをリトレーニングするか、維持するかを決定することに焦点を当てる。
当社の主なコントリビューションは、データとクエリのストリーム間のトレードオフを最適化する、Caraと呼ばれるコストアウェアリトレーニングアルゴリズムです。
Caraの性能を評価するため,合成データセットを解析し,Caraが最適な振り返りアルゴリズムと同様に動作しながら,異なるデータドリフトやトレーニングコストに適応できることを実証した。
また,実世界のデータセットを用いた実験を行い,フロー検出ベースラインよりも精度が向上し,再トレーニングの意思決定が減少し,最終的に総コストが低下することを示した。
関連論文リスト
- Loss-Free Machine Unlearning [51.34904967046097]
我々は、再学習とラベルなしの両方の機械学習アプローチを提案する。
Retraining-freeアプローチは、損失から派生したFisher情報を利用することが多く、利用できないラベル付きデータを必要とする。
本稿では,モデル出力のl2ノルムの勾配に対して,フィッシャー情報行列の対角線を近似感度に置き換えるSelective Synaptic Dampeningアルゴリズムの拡張を提案する。
論文 参考訳(メタデータ) (2024-02-29T16:15:34Z) - Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - Task-Aware Machine Unlearning and Its Application in Load Forecasting [4.00606516946677]
本稿では、すでに訓練済みの予測器に対するデータセットの一部の影響を除去するために特別に設計された機械学習の概念を紹介する。
局所モデルパラメータ変化の感度を影響関数とサンプル再重み付けを用いて評価することにより,性能認識アルゴリズムを提案する。
リアルな負荷データセットを用いて,線形,CNN,Mixerベースの負荷予測器上で,未学習アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-08-28T08:50:12Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Mitigating ML Model Decay in Continuous Integration with Data Drift
Detection: An Empirical Study [7.394099294390271]
本研究では,CI環境におけるTCP用MLモデルのリトレーニングポイントを自動的に検出するデータドリフト検出手法の性能について検討する。
我々はHellinger距離を用いて入力データの値と分布の変化を同定し、これらの変化をMLモデルの再学習点として利用した。
Hellinger distance-based methodの実験により,再学習点の検出と関連するコストの低減に効果と効率が示された。
論文 参考訳(メタデータ) (2023-05-22T05:55:23Z) - SAFE: Machine Unlearning With Shard Graphs [100.12621304361288]
本稿では,大規模モデルを多種多様なデータ集合に適応させる手法であるSynergy Aware Forgetting Ensemble (SAFE)を提案する。
SAFEは軽量なアダプタシステムを使用し、ほとんどの計算を再利用しながらトレーニングすることができる。
これにより、SAFEは現在の最先端の方法よりも小さなシャードの順序でトレーニングすることができる。
論文 参考訳(メタデータ) (2023-04-25T22:02:09Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Approximate Data Deletion from Machine Learning Models [31.689174311625084]
トレーニングされた機械学習(ML)モデルからデータを削除することは、多くのアプリケーションにおいて重要なタスクである。
線形モデルとロジスティックモデルに対する近似的削除法を提案する。
また,MLモデルからのデータ削除の完全性を評価するための機能注入テストも開発した。
論文 参考訳(メタデータ) (2020-02-24T05:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。