Fugu-MT 論文翻訳(概要): Modyn: A Platform for Model Training on Dynamic Datasets With Sample-Level Data Selection

論文の概要: Modyn: A Platform for Model Training on Dynamic Datasets With Sample-Level Data Selection

arxiv url: http://arxiv.org/abs/2312.06254v1
Date: Mon, 11 Dec 2023 09:50:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 16:20:25.662254
Title: Modyn: A Platform for Model Training on Dynamic Datasets With Sample-Level Data Selection
Title（参考訳）: Modyn: サンプルレベルデータ選択による動的データセットのモデルトレーニングプラットフォーム
Authors: Maximilian B\"other, Viktor Gsteiger, Ties Robroek, Ana Klimovic
Abstract要約: 動的データセット上でモデルトレーニングを行うプラットフォームであるModynを紹介する。 Modynは継続的トレーニングパイプラインをオーケストレーションし、基盤となるシステムインフラストラクチャを最適化して、任意のデータサンプルへの高速アクセスをサポートする。我々はModynのトレーニングスループットを評価し、メモリバウンドレコメンデーションシステムのワークロードにおいても、Modynはスループットの80%から100%に達することができることを示した。
参考スコア（独自算出の注目度）: 0.2184775414778289
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning training data is often dynamic in real-world use cases, i.e., data is added or removed and may experience distribution shifts over time. Models must incorporate this evolving training data to improve generalization, adapt to potential distribution shifts, and adhere to privacy regulations. However, the cost of model (re)training is proportional to how often the model trains and on how much data it trains on. While ML research explores these topics in isolation, there is no end-to-end open-source platform to facilitate the exploration of model retraining and data selection policies and the deployment these algorithms efficiently at scale. We present Modyn, a platform for model training on dynamic datasets that enables sample-level data selection and triggering policies. Modyn orchestrates continuous training pipelines while optimizing the underlying system infrastructure to support fast access to arbitrary data samples for efficient data selection. Modyn's extensible architecture allows users to run training pipelines without modifying the platform code, and enables researchers to effortlessly extend the system. We evaluate Modyn's training throughput, showing that even in memory-bound recommendation systems workloads, Modyn is able to reach 80 to 100 % of the throughput compared to loading big chunks of data locally without sample-level data selection. Additionally, we showcase Modyn's functionality with three different data selection policies.
Abstract（参考訳）: 機械学習のトレーニングデータは、多くの場合、実際のユースケースでは動的である。モデルは、一般化を改善し、潜在的な流通シフトに適応し、プライバシー規制に従うために、この進化するトレーニングデータを組み込まなければならない。しかし、モデル(リトレーニング)のコストは、モデルがどれだけの頻度でトレーニングするか、そしてどれだけのデータをトレーニングするかに比例する。 MLリサーチはこれらのトピックを分離して探求するが、モデルの再トレーニングとデータ選択ポリシの探索と、これらのアルゴリズムの大規模展開を容易にする、エンドツーエンドのオープンソースプラットフォームは存在しない。サンプルレベルのデータ選択とトリガポリシを可能にする動的データセットのモデルトレーニング用プラットフォームであるModynを提案する。 Modynは継続的トレーニングパイプラインをオーケストレーションし、基盤となるシステムインフラストラクチャを最適化して、任意のデータサンプルへの高速アクセスをサポートし、効率的なデータ選択を行う。 Modynの拡張可能なアーキテクチャでは、プラットフォームコードを変更することなくトレーニングパイプラインを実行できる。 modynのトレーニングスループットを評価し,メモリバウンダリシステムワークロードにおいても,サンプルレベルのデータ選択を伴わずに大量のデータをローカルにロードする場合と比較して,80～100パーセントのスループットを達成可能であることを示した。さらに、3つの異なるデータ選択ポリシーでModynの機能を紹介します。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Meta-Learning and Synthetic Data for Automated Pretraining and Finetuning [2.657867981416885]
機械学習(ML)における事前訓練モデルの増加は、実践者にとって大きな課題となる。モデルがスケールするにつれて、実世界のデータへの依存度の増加は、トレーニングのボトルネックとなり、より効率的にデータを活用する必要がある。この論文はメタラーニングを採用し、機械学習をディープラーニング領域に拡張する。
論文参考訳（メタデータ） (2025-06-11T12:48:45Z)
Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Training Dynamics of a 1.7B LLaMa Model: A Data-Efficient Approach [10.39475177812483]
約200億個のデータに対するDMaS-LLaMa-Liteのトレーニングから得られた洞察を共有します。我々は、検証損失レベルとダウンストリームベンチマークの進化が、不整合テキストから、流動的で文脈に根ざしたアウトプットへの移行を反映しているかを記述した、完全なトレーニングの軌跡を詳述する。これらの経験を詳述し、トレーニングログ、チェックポイント、サンプルアウトプットを提供することで、将来の研究者や実践者が事前学習戦略を洗練することを目指している。
論文参考訳（メタデータ） (2024-12-17T21:15:52Z)
TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文参考訳（メタデータ） (2024-10-23T18:00:00Z)
Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文参考訳（メタデータ） (2024-09-09T17:23:29Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文参考訳（メタデータ） (2024-04-04T17:58:02Z)
AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。 AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-23T18:56:26Z)
Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文参考訳（メタデータ） (2023-09-18T19:49:22Z)
Universal Metric Learning with Parameter-Efficient Transfer Learning [40.85295050164728]
メトリック学習における一般的なプラクティスは、データセット毎に埋め込みモデルをトレーニングし、テストすることである。このデータセット固有のアプローチは、複数の異種データの分散を含む実世界のシナリオをシミュレートすることができない。本稿では,複数のデータ分布にまたがる関係を捉えることのできる統一されたメトリックを学習するUniversal Metric Learning(UML)という,新しいメトリック学習パラダイムを導入する。
論文参考訳（メタデータ） (2023-09-16T10:34:01Z)
SOTASTREAM: A Streaming Approach to Machine Translation Training [13.39347756245191]
多くの機械翻訳ツールキットは、生データをトレーナーが直接使用できるテンソル形式に変換するデータ準備ステップを利用する。本稿では,そのデータ消費からデータ生成を分離する代替手法を提案する。このアプローチでは、個別の事前処理ステップはなく、データ生成は生のトレーニングデータの置換の無限のストリームを生成する。
論文参考訳（メタデータ） (2023-08-14T22:47:19Z)
TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文参考訳（メタデータ） (2023-03-24T17:56:22Z)
Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [119.70303730341938]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。 ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文参考訳（メタデータ） (2023-03-20T15:10:41Z)
Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文参考訳（メタデータ） (2022-10-05T09:17:27Z)
Data Debugging with Shapley Importance over End-to-End Machine Learning Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文参考訳（メタデータ） (2022-04-23T19:29:23Z)
It's the Best Only When It Fits You Most: Finding Related Models for Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文参考訳（メタデータ） (2020-10-13T22:52:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。