論文の概要: ScaleFold: Reducing AlphaFold Initial Training Time to 10 Hours
- arxiv url: http://arxiv.org/abs/2404.11068v1
- Date: Wed, 17 Apr 2024 04:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 15:14:36.516122
- Title: ScaleFold: Reducing AlphaFold Initial Training Time to 10 Hours
- Title(参考訳): AlphaFoldの初期トレーニング時間を10時間に短縮するScaleFold
- Authors: Feiwen Zhu, Arkadiusz Nowaczynski, Rundong Li, Jie Xin, Yifei Song, Michal Marcinkiewicz, Sukru Burc Eryilmaz, Jun Yang, Michael Andersch,
- Abstract要約: OpenfoldをベースとしたAlphaFoldトレーニング手順を総合的に分析する。
そこで我々は,AlphaFoldの効率的なスケーリングを阻害する要因として,非効率な通信とオーバヘッド優先の計算が重要であることを確認した。
これらの要因に最適化を取り入れた,系統的なトレーニング手法であるScaleFoldを紹介する。
- 参考スコア(独自算出の注目度): 4.886207598730398
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AlphaFold2 has been hailed as a breakthrough in protein folding. It can rapidly predict protein structures with lab-grade accuracy. However, its implementation does not include the necessary training code. OpenFold is the first trainable public reimplementation of AlphaFold. AlphaFold training procedure is prohibitively time-consuming, and gets diminishing benefits from scaling to more compute resources. In this work, we conducted a comprehensive analysis on the AlphaFold training procedure based on Openfold, identified that inefficient communications and overhead-dominated computations were the key factors that prevented the AlphaFold training from effective scaling. We introduced ScaleFold, a systematic training method that incorporated optimizations specifically for these factors. ScaleFold successfully scaled the AlphaFold training to 2080 NVIDIA H100 GPUs with high resource utilization. In the MLPerf HPC v3.0 benchmark, ScaleFold finished the OpenFold benchmark in 7.51 minutes, shown over $6\times$ speedup than the baseline. For training the AlphaFold model from scratch, ScaleFold completed the pretraining in 10 hours, a significant improvement over the seven days required by the original AlphaFold pretraining baseline.
- Abstract(参考訳): AlphaFold2はタンパク質の折り畳みのブレークスルーとして称賛されている。
ラボグレードの精度で素早くタンパク質構造を予測することができる。
しかし、その実装には必要なトレーニングコードが含まれていない。
OpenFoldは、AlphaFoldの最初のトレーニング可能なパブリック実装である。
AlphaFoldのトレーニング手順は極めて時間がかかり、より多くの計算リソースへのスケーリングによるメリットが減少します。
本研究では,OpenfoldをベースとしたAlphaFoldトレーニング手順の総合的な解析を行い,非効率な通信とオーバヘッドを優先した計算が,AlphaFoldトレーニングが効果的なスケーリングを妨げている重要な要因であることを確認した。
これらの要因に特化して最適化を取り入れた,体系的なトレーニング手法であるScaleFoldを紹介した。
ScaleFoldは、AlphaFoldトレーニングを2080 NVIDIA H100 GPUにスケールアップし、高いリソース利用を実現した。
MLPerf HPC v3.0ベンチマークにおいて、ScaleFoldはOpenFoldのベンチマークを7.51分で終了し、ベースラインよりも6ドル以上のスピードアップを示した。
AlphaFoldモデルをスクラッチからトレーニングするために、ScaleFoldは10時間で事前トレーニングを完了した。
関連論文リスト
- Improving AlphaFlow for Efficient Protein Ensembles Generation [64.10918970280603]
効率的なタンパク質アンサンブル生成を実現するために,AlphaFlow-Litと呼ばれる特徴条件付き生成モデルを提案する。
AlphaFlow-LitはAlphaFlowとオンパーで動作し、予行訓練なしで蒸留されたバージョンを上回り、47倍のサンプリング加速を達成している。
論文 参考訳(メタデータ) (2024-07-08T13:36:43Z) - Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - Breaking MLPerf Training: A Case Study on Optimizing BERT [9.486916730173661]
本稿では,BERTモデルの高速大規模学習のための新しいアプローチを提案する。
分散BERTトレーニングは、様々な長さのサンプルによって特徴付けられるため、ロードバランシングが不可欠である。
本稿では,1)負荷分散のためのデータセット階層化に基づく局所的事前ソートと,(2)帰納前のバケットワイド勾配クリッピングという2つの新しいアイデアを提案する。
論文 参考訳(メタデータ) (2024-02-04T11:12:17Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Stable and low-precision training for large-scale vision-language models [108.62077651227607]
本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。
Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13~25%の高速化を実現した。
安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1~8回発生することを発見した。
論文 参考訳(メタデータ) (2023-04-25T17:38:18Z) - HelixFold: An Efficient Implementation of AlphaFold2 using PaddlePaddle [19.331098164638544]
我々はPaddlePaddle、すなわちHelixFoldを使ってAlphaFold2を実装し、トレーニングと推論速度を改善し、メモリ消費を減らす。
オリジナルのAlphaFold2とOpenFoldと比較して、HelixFoldはエンドツーエンドのトレーニングを完了するのに7.5日しかかからない。
HelixFoldの精度は、CASP14とCAMEOデータセットのAlphaFold2と同等である。
論文 参考訳(メタデータ) (2022-07-12T11:43:50Z) - FastFold: Reducing AlphaFold Training Time from 11 Days to 67 Hours [11.847436777986323]
本稿では,タンパク質構造予測モデルの訓練と推論のための高効率実装であるFastFoldを提案する。
FastFoldには、AlphaFoldのパフォーマンスを徹底的に分析した一連のGPU最適化が含まれている。
実験の結果、FastFoldはトレーニング時間を11日から67時間に短縮し、ロングシーケンス推論のために7.5-9.5倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2022-03-02T03:59:51Z) - Fast Certified Robust Training via Better Initialization and Shorter
Warmup [95.81628508228623]
我々は,新しいIPPと原理正規化器を提案し,認証境界を安定化させる。
バッチ正規化(BN)は、認定トレーニングのための最高のパフォーマンスのネットワークを構築するための重要なアーキテクチャ要素です。
論文 参考訳(メタデータ) (2021-03-31T17:58:58Z) - Large-Scale Training System for 100-Million Classification at Alibaba [43.58719630882661]
極度の分類は 深層学習に欠かせない話題になっています
最後の出力層におけるメモリと爆発のため、数百万のクラスでディープモデルをトレーニングするのは非常に困難です。
トレーニングプロセスを実現可能にするために、ハイブリッド並列トレーニングフレームワークを構築しています。
第2に,GPUメモリ使用量と計算コストの両方を削減するKNNソフトマックスという新しいソフトマックス変種を提案する。
論文 参考訳(メタデータ) (2021-02-09T06:53:31Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。