論文の概要: Data drift correction via time-varying importance weight estimator
- arxiv url: http://arxiv.org/abs/2210.01422v1
- Date: Tue, 4 Oct 2022 07:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:51:38.088147
- Title: Data drift correction via time-varying importance weight estimator
- Title(参考訳): 時間変化重み推定器によるデータドリフト補正
- Authors: Rasool Fakoor and Jonas Mueller and Zachary C. Lipton and Pratik
Chaudhari and Alexander J. Smola
- Abstract要約: 機械学習モデルの現実的な展開は、データが時間とともに進化するときに困難である。
本稿では,データ分布の漸進的な変化を検知できる新しい時間変化重み推定器を提案する。
本稿では,教師付き学習タスクから強化学習タスクまで,さまざまな課題に対して,このアプローチを実証し,評価する。
- 参考スコア(独自算出の注目度): 111.12216038318805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world deployment of machine learning models is challenging when data
evolves over time. And data does evolve over time. While no model can work when
data evolves in an arbitrary fashion, if there is some pattern to these
changes, we might be able to design methods to address it. This paper addresses
situations when data evolves gradually. We introduce a novel time-varying
importance weight estimator that can detect gradual shifts in the distribution
of data. Such an importance weight estimator allows the training method to
selectively sample past data -- not just similar data from the past like a
standard importance weight estimator would but also data that evolved in a
similar fashion in the past. Our time-varying importance weight is quite
general. We demonstrate different ways of implementing it that exploit some
known structure in the evolution of data. We demonstrate and evaluate this
approach on a variety of problems ranging from supervised learning tasks
(multiple image classification datasets) where the data undergoes a sequence of
gradual shifts of our design to reinforcement learning tasks (robotic
manipulation and continuous control) where data undergoes a shift organically
as the policy or the task changes.
- Abstract(参考訳): 機械学習モデルの現実的な展開は、データが時間とともに進化するときに困難である。
そしてデータは時間とともに進化する。
データが任意の方法で進化する際には、モデルが機能しないが、これらの変更に何らかのパターンがある場合、それに対応するメソッドを設計できるかもしれない。
本稿では,データが徐々に進化する状況に対処する。
本稿では,データ分布のゆるやかな変化を検知できる新しい時間変化重要度推定器を提案する。
このような重要重量推定器は、トレーニング手法が過去のデータを選択的にサンプリングすることを可能にする -- 標準重要重量推定器のような過去の類似データだけでなく、過去に類似した方法で進化したデータも対象とする。
時間のかかる重要性の重みは、かなり一般的です。
データの進化において、既知の構造を利用する様々な実装方法を示します。
本手法は, 教師付き学習タスク(複数画像分類データセット)から, 設計の段階的な変化を連続的に行う学習タスク(ロボット操作と連続制御)まで, 方針やタスクの変化とともに, 組織的にシフトする学習タスク(ロボット操作と連続制御)まで, 様々な課題に対して実証および評価を行う。
関連論文リスト
- Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data [6.928276018602774]
この論文は、現代の機械学習のいくつかのデータ感度を探求する。
まず、トレーニングデータで測定された事前の人間の識別をMLが符号化するのを防ぐ方法について論じる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
論文 参考訳(メタデータ) (2023-12-19T20:49:28Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Sketches for Time-Dependent Machine Learning [8.824033416765106]
時系列データは、それらを生成する基盤となるプロセスの変化にさらされる可能性がある。
我々は、現在のデータ分布とその時間的進化に関する情報を機械学習アルゴリズムに組み込む方法を提案する。
論文 参考訳(メタデータ) (2021-08-26T17:24:56Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Time Series Data Imputation: A Survey on Deep Learning Approaches [4.4458738910060775]
時系列データ計算は、様々なカテゴリのメソッドでよく研究されている問題である。
ディープラーニングに基づく時系列手法は、RNNのようなモデルの使用によって進歩している。
我々は,それらのモデルアーキテクチャ,その長所,短所,短所,および時系列計算手法の開発を示す効果をレビューし,議論する。
論文 参考訳(メタデータ) (2020-11-23T11:57:27Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。