論文の概要: fairDMS: Rapid Model Training by Data and Model Reuse
- arxiv url: http://arxiv.org/abs/2204.09805v1
- Date: Wed, 20 Apr 2022 23:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:47:10.867028
- Title: fairDMS: Rapid Model Training by Data and Model Reuse
- Title(参考訳): FairDMS: データとモデル再利用による迅速なモデルトレーニング
- Authors: Ahsan Ali, Hemant Sharma, Rajkumar Kettimuthu, Peter Kenesei, Dennis
Trujillo, Antonino Miceli, Ian Foster, Ryan Coffee, Jana Thayer and Zhengchun
Liu
- Abstract要約: 高速なフィードバックループは、実験的なセットアップをリアルタイムで調整するために使用することができる。
時間の経過とともにMLのパフォーマンスが低下するのを避けるために、実験中にMLモデルを高速に更新する方法が必要である。
ここでは、MLベースの科学応用に焦点を当てたディープニューラルネットワークトレーニングを加速するデータサービスとモデルサービスを紹介します。
- 参考スコア(独自算出の注目度): 1.456636023747182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting actionable information from data sources such as the Linac
Coherent Light Source (LCLS-II) and Advanced Photon Source Upgrade (APS-U) is
becoming more challenging due to the fast-growing data generation rate. The
rapid analysis possible with ML methods can enable fast feedback loops that can
be used to adjust experimental setups in real-time, for example when errors
occur or interesting events are detected. However, to avoid degradation in ML
performance over time due to changes in an instrument or sample, we need a way
to update ML models rapidly while an experiment is running. We present here a
data service and model service to accelerate deep neural network training with
a focus on ML-based scientific applications. Our proposed data service achieves
100x speedup in terms of data labeling compare to the current state-of-the-art.
Further, our model service achieves up to 200x improvement in training speed.
Overall, fairDMS achieves up to 92x speedup in terms of end-to-end model
updating time.
- Abstract(参考訳): linacコヒーレント光源(lcls-ii)やadvanced photon source upgrade(aps-u)などのデータソースから実行可能な情報を抽出することは、急成長するデータ生成率のために難しくなっている。
MLメソッドによる高速解析により、例えばエラーが発生したり、興味深いイベントが検出された場合に、リアルタイムで実験的な設定を調整するために使用できる高速なフィードバックループが可能になる。
しかし,楽器やサンプルの変化によるML性能の劣化を避けるためには,実験中にMLモデルを高速に更新する方法が必要である。
ここでは、MLベースの科学応用に焦点を当てたディープニューラルネットワークトレーニングを加速するデータサービスとモデルサービスを紹介します。
提案するデータサービスは,現在のデータラベリングと比較して,100倍のスピードアップを実現している。
さらに,本モデルサービスは,最大200倍のトレーニング速度向上を実現している。
全体として、FairDMSはエンドツーエンドモデルの更新時間で最大92倍のスピードアップを達成する。
関連論文リスト
- Test-time Adaptive Vision-and-Language Navigation [75.50521064106732]
視覚・言語ナビゲーションのためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
高速更新フェーズでは、最近のマルチステップナビゲーションプロセスで発生する勾配を、さまざまなレベルの一貫性を持つコンポーネントに分解する。
遅い更新フェーズでは、歴史的に記録されたパラメータを収集し、同様の分解蓄積分析を行い、モデルを安定状態に戻す。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Closing the loop: Autonomous experiments enabled by
machine-learning-based online data analysis in synchrotron beamline
environments [80.49514665620008]
機械学習は、大規模または高速に生成されたデータセットを含む研究を強化するために使用できる。
本研究では,X線反射法(XRR)のための閉ループワークフローへのMLの導入について述べる。
本研究では,ビームライン制御ソフトウェア環境に付加的なソフトウェア依存関係を導入することなく,実験中の基本データ解析をリアルタイムで行うソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-20T21:21:19Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z) - Continual learning autoencoder training for a particle-in-cell
simulation via streaming [52.77024349608834]
今後のエクサスケール時代は 次世代の物理シミュレーションを 高解像度で提供します
これらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。
この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文 参考訳(メタデータ) (2022-11-09T09:55:14Z) - A data filling methodology for time series based on CNN and (Bi)LSTM
neural networks [0.0]
イタリア・ボルツァーノの監視アパートから得られた時系列データギャップを埋めるための2つのDeep Learningモデルを開発した。
提案手法は, 変動するデータの性質を把握し, 対象時系列の再構成に優れた精度を示す。
論文 参考訳(メタデータ) (2022-04-21T09:40:30Z) - Real-time Drift Detection on Time-series Data [0.6303112417588329]
季節変動を考慮した非教師付き時間ドリフト検出器(unsupervised Temporal Drift Detector, UTDD)を提案する。
提案手法は, 時系列データ中の時間的概念のドリフトを, 基底真理の欠如により効率的に検出する。
論文 参考訳(メタデータ) (2021-10-12T22:09:29Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Lambda Learner: Fast Incremental Learning on Data Streams [5.543723668681475]
本稿では,データストリームからのミニバッチに対するインクリメンタル更新によるモデルトレーニングのための新しいフレームワークを提案する。
提案するフレームワークのモデルでは,オフラインデータに基づいてトレーニングされた周期的に更新されたモデルを推定し,モデル更新が時間に敏感な場合,性能が向上することを示す。
我々は、大規模ソーシャルネットワークのためのスポンサー付きコンテンツプラットフォームに大規模な展開を提示する。
論文 参考訳(メタデータ) (2020-10-11T04:00:34Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。