論文の概要: MegaFold: System-Level Optimizations for Accelerating Protein Structure Prediction Models
- arxiv url: http://arxiv.org/abs/2506.20686v1
- Date: Tue, 24 Jun 2025 23:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.815962
- Title: MegaFold: System-Level Optimizations for Accelerating Protein Structure Prediction Models
- Title(参考訳): MegaFold:タンパク質構造予測モデルの高速化のためのシステムレベル最適化
- Authors: Hoa La, Ahan Gupta, Alex Morehead, Jianlin Cheng, Minjia Zhang,
- Abstract要約: AF3トレーニングを加速するクロスプラットフォームシステムであるMegaFoldを提案する。
MegaFoldはAF3トレーニングのピークメモリ使用量を最大1.23$times$に削減し、最大1.73$times$と1.62$times$に改善した。
- 参考スコア(独自算出の注目度): 17.994632753972958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein structure prediction models such as AlphaFold3 (AF3) push the frontier of biomolecular modeling by incorporating science-informed architectural changes to the transformer architecture. However, these advances come at a steep system cost, introducing: compute- and memory-intensive operators, 2D attention mechanisms, and retrieval-augmented data pipelines, which collectively hinder the scalability of AF3 training. In this work, we present MegaFold, a cross-platform system to accelerate AF3 training. MegaFold tackles key bottlenecks through ahead-of-time caching to eliminate GPU idle time from the retrieval-augmented data pipeline, Triton-based kernels for memory-efficient EvoAttention on heterogeneous devices, and deep fusion for common and critical small operators in AF3. Evaluation on both NVIDIA H200 and AMD MI250 GPUs shows that MegaFold reduces peak memory usage of AF3 training by up to 1.23$\times$ and improves per-iteration training time by up-to 1.73$\times$ and 1.62$\times$ respectively. More importantly, MegaFold enables training on 1.35$\times$ longer sequence lengths compared to PyTorch baselines without running out-of-memory, significantly improving the scalability of modern protein folding models. We open source our code at https://github.com/Supercomputing-System-AI-Lab/MegaFold/.
- Abstract(参考訳): AlphaFold3 (AF3) のようなタンパク質構造予測モデルは、トランスフォーマーアーキテクチャに科学的な構造変化を取り入れることで、生体分子モデリングのフロンティアを推し進める。
しかし、これらの進歩は、計算およびメモリ集約演算子、2Dアテンション機構、検索強化データパイプラインを導入し、AF3トレーニングのスケーラビリティを阻害するなど、システムコストが急上昇する。
本稿では,AF3トレーニングを加速するクロスプラットフォームシステムであるMegaFoldを紹介する。
MegaFoldは、検索強化されたデータパイプラインからGPUアイドル時間を排除し、ヘテロジニアスデバイス上でメモリ効率の高いEvoAttentionのためのTritonベースのカーネル、AF3の一般的でクリティカルな小演算子のためのディープフュージョンといった、前向きのキャッシュを通じて重要なボトルネックに取り組む。
NVIDIA H200とAMD MI250の両方の評価によると、MegaFoldはAF3トレーニングのピークメモリ使用量を最大1.23$\times$に削減し、最大1.73$\times$と1.62$\times$に改善している。
さらに重要なこととして、MegaFoldはPyTorchベースラインと比較して1.35$\times$長いシーケンス長のトレーニングを可能にし、現代のタンパク質折り畳みモデルのスケーラビリティを大幅に改善した。
ソースコードはhttps://github.com/Supercomputing-System-AI-Lab/MegaFold/.comで公開しています。
関連論文リスト
- Ultra Memory-Efficient On-FPGA Training of Transformers via Tensor-Compressed Optimization [9.555456615472512]
本稿では,エンド・ツー・エンド・エンド・トランスフォーマー・トレーニングのための最初のFPGAアクセラレーションを提案する。
アルゴリズム側では、テンソル化変圧器訓練のための双方向の収縮流を提示する。
ハードウェア側では、高度に圧縮されたモデルパラメータと勾配情報をチップに格納する。
論文 参考訳(メタデータ) (2025-01-11T23:29:51Z) - TrIM, Triangular Input Movement Systolic Array for Convolutional Neural Networks: Architecture and Hardware Implementation [0.0]
TrIMは、入力の三角移動に基づく革新的なデータフローである。
TrIMは、最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減できる。
アーキテクチャは、毎秒453.6ギガオペレーションのピークスループットを達成する。
論文 参考訳(メタデータ) (2024-08-05T10:18:00Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor
Cores [18.016204763652553]
長いフィルタを持つ畳み込みモデルは、多くの長いシーケンスタスクにおいて最先端の推論能力を示している。
Fast Fourier Transform (FFT) は、長い畳み込みを$O(N logN)$ time in sequence length $N$で実行可能にするが、ハードウェア利用は乏しい。
本稿では,FFT畳み込みの最適化方法について検討する。
論文 参考訳(メタデータ) (2023-11-10T07:33:35Z) - Laughing Hyena Distillery: Extracting Compact Recurrences From
Convolutions [101.08706223326928]
近年のアテンションフリーシーケンスモデルの発展は、トランスフォーマーのコアにあるアテンション演算子の代替として、畳み込みに依存している。
本稿では,事前学習した長大な畳み込みアーキテクチャにおいて,トークン当たりの計算コストとメモリコストを$mathcal O(1)$にすることを提案する。
論文 参考訳(メタデータ) (2023-10-28T18:40:03Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Siamese Transformer Pyramid Networks for Real-Time UAV Tracking [3.0969191504482243]
本稿では,CNNとTransformerアーキテクチャの両方の利点を継承するSiamTPN(Siamese Transformer Pyramid Network)を紹介する。
航空機と一般的な追跡ベンチマークの両方の実験は、高速で動作しながら競争的な結果を得る。
我々の最速の可変トラッカーは、1つのCPUコアで30Hz以上で動作し、LaSOTデータセットで58.1%のAUCスコアを得る。
論文 参考訳(メタデータ) (2021-10-17T13:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。