論文の概要: When to Retrain after Drift: A Data-Only Test of Post-Drift Data Size Sufficiency
- arxiv url: http://arxiv.org/abs/2603.09024v1
- Date: Mon, 09 Mar 2026 23:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.89999
- Title: When to Retrain after Drift: A Data-Only Test of Post-Drift Data Size Sufficiency
- Title(参考訳): ドリフト後のリトレーニング: ドリフト後データサイズのデータオンリーテスト
- Authors: Ren Fujiwara, Yasuko Matsubara, Yasushi Sakurai,
- Abstract要約: CALIPERは検出器とモデルに依存しないデータのみのテストであり、安定した再訓練に必要なデータサイズを推定する。
私たちは、CALIPERが無視できるオーバーヘッドを発生させ、しばしばインクリメンタルアップデートよりも優れたパフォーマンスを保ちながら、再トレーニングのための最高の固定データサイズを一貫して一致または超過していることを示します。
- 参考スコア(独自算出の注目度): 17.084943743566217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sudden concept drift makes previously trained predictors unreliable, yet deciding when to retrain and what post-drift data size is sufficient is rarely addressed. We propose CALIPER - a detector- and model-agnostic, data-only test that estimates the post-drift data size required for stable retraining. CALIPER exploits state dependence in streams generated by dynamical systems: we run a single-pass weighted local regression over the post-drift window and track a one-step proxy error as a function of a locality parameter $θ$. When an effective sample size gate is satisfied, a monotonically non-increasing trend in this error with increasing a locality parameter indicates that the data size is sufficiently informative for retraining. We also provide a theoretical analysis of our method, and we show that the algorithm has a low per-update time and memory. Across datasets from four heterogeneous domains, three learner families, and two detectors, CALIPER consistently matches or exceeds the best fixed data size for retraining while incurring negligible overhead and often outperforming incremental updates. CALIPER closes the gap between drift detection and data-sufficient adaptation in streaming learning.
- Abstract(参考訳): 急激なコンセプトドリフトは、以前にトレーニングされた予測器を信頼できないものにするが、いつ再トレーニングするか、またドリフト後のデータサイズが十分であるかを決めることは滅多にない。
安定再トレーニングに必要なデータサイズを推定する,検出およびモデルに依存しないデータ専用テストであるCALIPERを提案する。
CALIPERは動的システムによって生成されたストリームの状態依存を利用しており、単一パスの重み付けされた局所回帰を後ドリフトウィンドウ上で実行し、局所性パラメータ$θ$の関数として1ステップのプロキシエラーを追跡する。
有効サンプルサイズゲートが満たされると、局所性パラメータの増加に伴うこの誤差の単調な非増加傾向は、データサイズが再トレーニングに十分有益であることを示す。
また,提案手法の理論的解析を行い,そのアルゴリズムの更新時間とメモリが低いことを示す。
ヘテロジニアスな4つのドメイン、3つの学習者ファミリー、2つの検出器からのデータセット全体にわたって、CALIPERは、無視できないオーバーヘッドを発生させ、しばしばインクリメンタルな更新を上回りながら、トレーニングのための最高の固定データサイズを一貫して一致または超えている。
CALIPERは、ストリーミング学習におけるドリフト検出とデータ十分適応のギャップを埋める。
関連論文リスト
- A Hybrid Framework for Real-Time Data Drift and Anomaly Identification Using Hierarchical Temporal Memory and Statistical Tests [14.37149160708975]
本稿では,階層型テンポラルメモリ(HTM)と逐次確率比テスト(SPRT)を組み合わせた,リアルタイムデータドリフト検出と異常同定のためのハイブリッドフレームワークを提案する。
実験により,提案手法は,KS試験,ワッサーシュタイン距離,人口安定度指数(PSI)などの従来のドリフト検出手法よりも精度,適応性,計算効率の点で優れていた。
論文 参考訳(メタデータ) (2025-04-24T18:23:18Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Uncovering Drift in Textual Data: An Unsupervised Method for Detecting
and Mitigating Drift in Machine Learning Models [9.035254826664273]
機械学習におけるドリフト(drift)とは、モデルが動作しているデータやコンテキストの統計的性質が時間とともに変化し、性能が低下する現象を指す。
提案手法では, 目標分布として生産データのサンプルを符号化し, モデルトレーニングデータを基準分布として符号化する。
また,ドリフトの根本原因である生産データのサブセットも同定する。
これらの高ドリフトサンプルを用いて再トレーニングしたモデルでは、オンライン顧客エクスペリエンスの品質指標のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2023-09-07T16:45:42Z) - ORFit: One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive Least-Squares [5.430441358049335]
本研究では,従来のデータポイントを再学習することなく,逐次到着するデータに対してモデルを訓練するワンパス学習の問題点について検討する。
我々は,従来のデータポイントの予測を最小限に変更しつつ,各データポイントに完全に適合するワンパス学習アルゴリズムOrthogonal Recursive Fitting (ORFit)を提案する。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - Unsupervised Model Drift Estimation with Batch Normalization Statistics
for Dataset Shift Detection and Model Selection [0.0]
本研究では,未ラベル試験データに基づくバッチ正規化層の統計量を利用したモデルドリフト推定手法を提案する。
本手法は,モデル動物園内に複数の候補モデルが存在する場合のモデル選択だけでなく,教師なしの方法でのトレーニングトラジェクトリにおいても有効であることを示す。
論文 参考訳(メタデータ) (2021-07-01T03:04:47Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。