論文の概要: Modyn: A Platform for Model Training on Dynamic Datasets With
Sample-Level Data Selection
- arxiv url: http://arxiv.org/abs/2312.06254v1
- Date: Mon, 11 Dec 2023 09:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:20:25.662254
- Title: Modyn: A Platform for Model Training on Dynamic Datasets With
Sample-Level Data Selection
- Title(参考訳): Modyn: サンプルレベルデータ選択による動的データセットのモデルトレーニングプラットフォーム
- Authors: Maximilian B\"other, Viktor Gsteiger, Ties Robroek, Ana Klimovic
- Abstract要約: 動的データセット上でモデルトレーニングを行うプラットフォームであるModynを紹介する。
Modynは継続的トレーニングパイプラインをオーケストレーションし、基盤となるシステムインフラストラクチャを最適化して、任意のデータサンプルへの高速アクセスをサポートする。
我々はModynのトレーニングスループットを評価し、メモリバウンドレコメンデーションシステムのワークロードにおいても、Modynはスループットの80%から100%に達することができることを示した。
- 参考スコア(独自算出の注目度): 0.2184775414778289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning training data is often dynamic in real-world use cases,
i.e., data is added or removed and may experience distribution shifts over
time. Models must incorporate this evolving training data to improve
generalization, adapt to potential distribution shifts, and adhere to privacy
regulations. However, the cost of model (re)training is proportional to how
often the model trains and on how much data it trains on. While ML research
explores these topics in isolation, there is no end-to-end open-source platform
to facilitate the exploration of model retraining and data selection policies
and the deployment these algorithms efficiently at scale.
We present Modyn, a platform for model training on dynamic datasets that
enables sample-level data selection and triggering policies. Modyn orchestrates
continuous training pipelines while optimizing the underlying system
infrastructure to support fast access to arbitrary data samples for efficient
data selection. Modyn's extensible architecture allows users to run training
pipelines without modifying the platform code, and enables researchers to
effortlessly extend the system. We evaluate Modyn's training throughput,
showing that even in memory-bound recommendation systems workloads, Modyn is
able to reach 80 to 100 % of the throughput compared to loading big chunks of
data locally without sample-level data selection. Additionally, we showcase
Modyn's functionality with three different data selection policies.
- Abstract(参考訳): 機械学習のトレーニングデータは、多くの場合、実際のユースケースでは動的である。
モデルは、一般化を改善し、潜在的な流通シフトに適応し、プライバシー規制に従うために、この進化するトレーニングデータを組み込まなければならない。
しかし、モデル(リトレーニング)のコストは、モデルがどれだけの頻度でトレーニングするか、そしてどれだけのデータをトレーニングするかに比例する。
MLリサーチはこれらのトピックを分離して探求するが、モデルの再トレーニングとデータ選択ポリシの探索と、これらのアルゴリズムの大規模展開を容易にする、エンドツーエンドのオープンソースプラットフォームは存在しない。
サンプルレベルのデータ選択とトリガポリシを可能にする動的データセットのモデルトレーニング用プラットフォームであるModynを提案する。
Modynは継続的トレーニングパイプラインをオーケストレーションし、基盤となるシステムインフラストラクチャを最適化して、任意のデータサンプルへの高速アクセスをサポートし、効率的なデータ選択を行う。
Modynの拡張可能なアーキテクチャでは、プラットフォームコードを変更することなくトレーニングパイプラインを実行できる。
modynのトレーニングスループットを評価し,メモリバウンダリシステムワークロードにおいても,サンプルレベルのデータ選択を伴わずに大量のデータをローカルにロードする場合と比較して,80~100パーセントのスループットを達成可能であることを示した。
さらに、3つの異なるデータ選択ポリシーでModynの機能を紹介します。
関連論文リスト
- Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Universal Metric Learning with Parameter-Efficient Transfer Learning [40.85295050164728]
メトリック学習における一般的なプラクティスは、データセット毎に埋め込みモデルをトレーニングし、テストすることである。
このデータセット固有のアプローチは、複数の異種データの分散を含む実世界のシナリオをシミュレートすることができない。
本稿では,複数のデータ分布にまたがる関係を捉えることのできる統一されたメトリックを学習するUniversal Metric Learning(UML)という,新しいメトリック学習パラダイムを導入する。
論文 参考訳(メタデータ) (2023-09-16T10:34:01Z) - SOTASTREAM: A Streaming Approach to Machine Translation Training [13.39347756245191]
多くの機械翻訳ツールキットは、生データをトレーナーが直接使用できるテンソル形式に変換するデータ準備ステップを利用する。
本稿では,そのデータ消費からデータ生成を分離する代替手法を提案する。
このアプローチでは、個別の事前処理ステップはなく、データ生成は生のトレーニングデータの置換の無限のストリームを生成する。
論文 参考訳(メタデータ) (2023-08-14T22:47:19Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。