論文の概要: fairDMS: Rapid Model Training by Data and Model Reuse
- arxiv url: http://arxiv.org/abs/2204.09805v1
- Date: Wed, 20 Apr 2022 23:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:47:10.867028
- Title: fairDMS: Rapid Model Training by Data and Model Reuse
- Title(参考訳): FairDMS: データとモデル再利用による迅速なモデルトレーニング
- Authors: Ahsan Ali, Hemant Sharma, Rajkumar Kettimuthu, Peter Kenesei, Dennis
Trujillo, Antonino Miceli, Ian Foster, Ryan Coffee, Jana Thayer and Zhengchun
Liu
- Abstract要約: 高速なフィードバックループは、実験的なセットアップをリアルタイムで調整するために使用することができる。
時間の経過とともにMLのパフォーマンスが低下するのを避けるために、実験中にMLモデルを高速に更新する方法が必要である。
ここでは、MLベースの科学応用に焦点を当てたディープニューラルネットワークトレーニングを加速するデータサービスとモデルサービスを紹介します。
- 参考スコア(独自算出の注目度): 1.456636023747182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting actionable information from data sources such as the Linac
Coherent Light Source (LCLS-II) and Advanced Photon Source Upgrade (APS-U) is
becoming more challenging due to the fast-growing data generation rate. The
rapid analysis possible with ML methods can enable fast feedback loops that can
be used to adjust experimental setups in real-time, for example when errors
occur or interesting events are detected. However, to avoid degradation in ML
performance over time due to changes in an instrument or sample, we need a way
to update ML models rapidly while an experiment is running. We present here a
data service and model service to accelerate deep neural network training with
a focus on ML-based scientific applications. Our proposed data service achieves
100x speedup in terms of data labeling compare to the current state-of-the-art.
Further, our model service achieves up to 200x improvement in training speed.
Overall, fairDMS achieves up to 92x speedup in terms of end-to-end model
updating time.
- Abstract(参考訳): linacコヒーレント光源(lcls-ii)やadvanced photon source upgrade(aps-u)などのデータソースから実行可能な情報を抽出することは、急成長するデータ生成率のために難しくなっている。
MLメソッドによる高速解析により、例えばエラーが発生したり、興味深いイベントが検出された場合に、リアルタイムで実験的な設定を調整するために使用できる高速なフィードバックループが可能になる。
しかし,楽器やサンプルの変化によるML性能の劣化を避けるためには,実験中にMLモデルを高速に更新する方法が必要である。
ここでは、MLベースの科学応用に焦点を当てたディープニューラルネットワークトレーニングを加速するデータサービスとモデルサービスを紹介します。
提案するデータサービスは,現在のデータラベリングと比較して,100倍のスピードアップを実現している。
さらに,本モデルサービスは,最大200倍のトレーニング速度向上を実現している。
全体として、FairDMSはエンドツーエンドモデルの更新時間で最大92倍のスピードアップを達成する。
関連論文リスト
- FastSTI: A Fast Conditional Pseudo Numerical Diffusion Model for Spatio-temporal Traffic Data Imputation [4.932317347331121]
高時間トラフィックデータは、インテリジェントトランスポートシステム(ITS)とそのデータ駆動アプリケーションにとって不可欠である。
拡散確率モデルの最近の研究は、計算における深部生成モデルの優越性を証明している。
2種類の現実世界のトラフィックデータセットを高速に処理することで、高品質なサンプルをわずか6ステップでインプットできることが証明されている。
論文 参考訳(メタデータ) (2024-10-20T01:45:51Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Closing the loop: Autonomous experiments enabled by
machine-learning-based online data analysis in synchrotron beamline
environments [80.49514665620008]
機械学習は、大規模または高速に生成されたデータセットを含む研究を強化するために使用できる。
本研究では,X線反射法(XRR)のための閉ループワークフローへのMLの導入について述べる。
本研究では,ビームライン制御ソフトウェア環境に付加的なソフトウェア依存関係を導入することなく,実験中の基本データ解析をリアルタイムで行うソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-20T21:21:19Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z) - Continual learning autoencoder training for a particle-in-cell
simulation via streaming [52.77024349608834]
今後のエクサスケール時代は 次世代の物理シミュレーションを 高解像度で提供します
これらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。
この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文 参考訳(メタデータ) (2022-11-09T09:55:14Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Lambda Learner: Fast Incremental Learning on Data Streams [5.543723668681475]
本稿では,データストリームからのミニバッチに対するインクリメンタル更新によるモデルトレーニングのための新しいフレームワークを提案する。
提案するフレームワークのモデルでは,オフラインデータに基づいてトレーニングされた周期的に更新されたモデルを推定し,モデル更新が時間に敏感な場合,性能が向上することを示す。
我々は、大規模ソーシャルネットワークのためのスポンサー付きコンテンツプラットフォームに大規模な展開を提示する。
論文 参考訳(メタデータ) (2020-10-11T04:00:34Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。