論文の概要: Modyn: A Platform for Model Training on Dynamic Datasets With
Sample-Level Data Selection
- arxiv url: http://arxiv.org/abs/2312.06254v1
- Date: Mon, 11 Dec 2023 09:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:20:25.662254
- Title: Modyn: A Platform for Model Training on Dynamic Datasets With
Sample-Level Data Selection
- Title(参考訳): Modyn: サンプルレベルデータ選択による動的データセットのモデルトレーニングプラットフォーム
- Authors: Maximilian B\"other, Viktor Gsteiger, Ties Robroek, Ana Klimovic
- Abstract要約: 動的データセット上でモデルトレーニングを行うプラットフォームであるModynを紹介する。
Modynは継続的トレーニングパイプラインをオーケストレーションし、基盤となるシステムインフラストラクチャを最適化して、任意のデータサンプルへの高速アクセスをサポートする。
我々はModynのトレーニングスループットを評価し、メモリバウンドレコメンデーションシステムのワークロードにおいても、Modynはスループットの80%から100%に達することができることを示した。
- 参考スコア(独自算出の注目度): 0.2184775414778289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning training data is often dynamic in real-world use cases,
i.e., data is added or removed and may experience distribution shifts over
time. Models must incorporate this evolving training data to improve
generalization, adapt to potential distribution shifts, and adhere to privacy
regulations. However, the cost of model (re)training is proportional to how
often the model trains and on how much data it trains on. While ML research
explores these topics in isolation, there is no end-to-end open-source platform
to facilitate the exploration of model retraining and data selection policies
and the deployment these algorithms efficiently at scale.
We present Modyn, a platform for model training on dynamic datasets that
enables sample-level data selection and triggering policies. Modyn orchestrates
continuous training pipelines while optimizing the underlying system
infrastructure to support fast access to arbitrary data samples for efficient
data selection. Modyn's extensible architecture allows users to run training
pipelines without modifying the platform code, and enables researchers to
effortlessly extend the system. We evaluate Modyn's training throughput,
showing that even in memory-bound recommendation systems workloads, Modyn is
able to reach 80 to 100 % of the throughput compared to loading big chunks of
data locally without sample-level data selection. Additionally, we showcase
Modyn's functionality with three different data selection policies.
- Abstract(参考訳): 機械学習のトレーニングデータは、多くの場合、実際のユースケースでは動的である。
モデルは、一般化を改善し、潜在的な流通シフトに適応し、プライバシー規制に従うために、この進化するトレーニングデータを組み込まなければならない。
しかし、モデル(リトレーニング)のコストは、モデルがどれだけの頻度でトレーニングするか、そしてどれだけのデータをトレーニングするかに比例する。
MLリサーチはこれらのトピックを分離して探求するが、モデルの再トレーニングとデータ選択ポリシの探索と、これらのアルゴリズムの大規模展開を容易にする、エンドツーエンドのオープンソースプラットフォームは存在しない。
サンプルレベルのデータ選択とトリガポリシを可能にする動的データセットのモデルトレーニング用プラットフォームであるModynを提案する。
Modynは継続的トレーニングパイプラインをオーケストレーションし、基盤となるシステムインフラストラクチャを最適化して、任意のデータサンプルへの高速アクセスをサポートし、効率的なデータ選択を行う。
Modynの拡張可能なアーキテクチャでは、プラットフォームコードを変更することなくトレーニングパイプラインを実行できる。
modynのトレーニングスループットを評価し,メモリバウンダリシステムワークロードにおいても,サンプルレベルのデータ選択を伴わずに大量のデータをローカルにロードする場合と比較して,80~100パーセントのスループットを達成可能であることを示した。
さらに、3つの異なるデータ選択ポリシーでModynの機能を紹介します。
関連論文リスト
- No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - SwiftLearn: A Data-Efficient Training Method of Deep Learning Models
using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。
このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。
我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文 参考訳(メタデータ) (2023-11-25T22:51:01Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - How to Train an Accurate and Efficient Object Detection Model on Any
Dataset [0.0]
オブジェクト検出訓練のためのデータセットに依存しないテンプレートを提案する。
慎重に選択され、事前訓練されたモデルと、さらなるトレーニングのための堅牢なトレーニングパイプラインで構成される。
私たちのソリューションは最初から動作し、幅広いデータセットに対して強力なベースラインを提供します。
論文 参考訳(メタデータ) (2022-11-30T17:09:01Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。