論文の概要: On Anytime Learning at Macroscale
- arxiv url: http://arxiv.org/abs/2106.09563v1
- Date: Thu, 17 Jun 2021 14:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 21:57:44.481199
- Title: On Anytime Learning at Macroscale
- Title(参考訳): Macroscaleでの学習について
- Authors: Lucas Caccia, Jing Xu, Myle Ott, Marc'Aurelio Ranzato, Ludovic Denoyer
- Abstract要約: 多くの実用的なアプリケーションでは、データが一度に到着するのではなく、時間の経過とともにバッチになる。
欲求予測器は、これらが利用可能になったらすぐにバッチでトレーニングすることで、非自明な予測を生成することができるが、将来のデータの準最適利用も可能かもしれない。
荒々しい予測器は、複数のバッチをより大きなデータセットに集約するのに長い時間を要するが、最終的にははるかに優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 33.674452784463774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical machine learning frameworks assume access to a possibly large
dataset in order to train a predictive model. In many practical applications
however, data does not arrive all at once, but in batches over time. This
creates a natural trade-off between accuracy of a model and time to obtain such
a model. A greedy predictor could produce non-trivial predictions by
immediately training on batches as soon as these become available but, it may
also make sub-optimal use of future data. On the other hand, a tardy predictor
could wait for a long time to aggregate several batches into a larger dataset,
but ultimately deliver a much better performance. In this work, we consider
such a streaming learning setting, which we dub {\em anytime learning at
macroscale} (ALMA). It is an instance of anytime learning applied not at the
level of a single chunk of data, but at the level of the entire sequence of
large batches. We first formalize this learning setting, we then introduce
metrics to assess how well learners perform on the given task for a given
memory and compute budget, and finally we test several baseline approaches on
standard benchmarks repurposed for anytime learning at macroscale. The general
finding is that bigger models always generalize better. In particular, it is
important to grow model capacity over time if the initial model is relatively
small. Moreover, updating the model at an intermediate rate strikes the best
trade off between accuracy and time to obtain a useful predictor.
- Abstract(参考訳): 古典的な機械学習フレームワークは、予測モデルをトレーニングするために、おそらく大きなデータセットへのアクセスを前提としている。
しかし、多くの実用的なアプリケーションでは、データは一度にすべてではなく、時間とともにバッチで到着する。
これにより、モデル精度と時間との自然なトレードオフが生まれ、そのようなモデルが得られる。
欲深い予測者は、それらが利用可能になるとすぐにバッチでトレーニングすることで、非自明な予測を生成できるが、将来のデータを最適に利用することもできる。
一方、ターディ予測器は、複数のバッチをより大きなデータセットに集約するのを長く待つことができるが、最終的にははるかに優れたパフォーマンスを提供する。
本研究では,ストリーミング学習環境について考察し,マクロスケール(alma)での学習について考察する。
これは、データのチャンクのレベルではなく、大規模なバッチのシーケンス全体のレベルに適用された、任意の時間学習の例である。
まず、この学習設定を定式化し、次に、与えられたメモリと計算予算のタスクに対して、学習者がいかにうまく機能するかを評価するメトリクスを導入し、最後に、マクロスケールで学習するために再利用された標準ベンチマークに対するいくつかのベースラインアプローチをテストする。
一般的な発見は、より大きなモデルは常により一般化されるということだ。
特に、初期モデルが比較的小さい場合、時間とともにモデルの容量を増やすことが重要である。
さらに、中間レートでのモデル更新は、精度と時間の間の最良のトレードオフを伴い、有用な予測器を得る。
関連論文リスト
- A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Few-Shot Load Forecasting Under Data Scarcity in Smart Grids: A Meta-Learning Approach [0.18641315013048293]
本稿では,短期負荷予測のためのモデルに依存しないメタ学習アルゴリズムを提案する。
提案手法は,任意の長さの未知の負荷時間列に迅速に適応し,一般化することができる。
提案手法は,実世界の消費者の歴史的負荷消費データのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-06-09T18:59:08Z) - Contrastive Difference Predictive Coding [79.74052624853303]
本研究では、時系列データの断片を縫合して、将来の事象の予測を学習するために必要なデータの量を減少させるコントラッシブ予測符号化の時間差版を導入する。
目的条件付きRLの非政治アルゴリズムを導出するために,この表現学習手法を適用した。
論文 参考訳(メタデータ) (2023-10-31T03:16:32Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Geometry-Aware Adaptation for Pretrained Models [15.715395029966812]
本稿では、argmaxをFr'echet平均に置き換え、標準予測規則のドロップイン置換を提案する。
提案したアプローチであるLokiは、ImageNet上のSimCLRよりも29.7%向上しています。
そのような指標が得られない場合、Lokiはクラス埋め込みから自己派生メトリクスを使用でき、事前訓練されたゼロショットモデルの10.5%の改善が得られる。
論文 参考訳(メタデータ) (2023-07-23T04:48:41Z) - Instance-Conditional Timescales of Decay for Non-Stationary Learning [11.90763787610444]
スローコンセプトドリフトは、機械学習システムにおいて、ユビキタスだが未研究の課題である。
大規模トレーニングウィンドウ上でのインスタンスの重要さのバランスをとるための最適化型アプローチを提案する。
9年間にわたる39万枚の写真からなる大規模な実世界のデータセットの実験では、精度が15%まで向上した。
論文 参考訳(メタデータ) (2022-12-12T14:16:26Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Multi-Objective Model Selection for Time Series Forecasting [9.473440847947492]
44のデータセット上で7つの古典的および6つのディープラーニング予測手法を評価する。
ベンチマーク評価を利用して、精度やレイテンシといった複数の目標を考慮した優れたデフォルトを学習します。
予測モデルから性能指標へのマッピングを学習することにより,提案手法のPARETOSELECTが正確にモデルを選択することができることを示す。
論文 参考訳(メタデータ) (2022-02-17T07:40:15Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。