Fugu-MT 論文翻訳(概要): MegaFold: System-Level Optimizations for Accelerating Protein Structure Prediction Models

論文の概要: MegaFold: System-Level Optimizations for Accelerating Protein Structure Prediction Models

arxiv url: http://arxiv.org/abs/2506.20686v1
Date: Tue, 24 Jun 2025 23:30:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:09.815962
Title: MegaFold: System-Level Optimizations for Accelerating Protein Structure Prediction Models
Title（参考訳）: MegaFold:タンパク質構造予測モデルの高速化のためのシステムレベル最適化
Authors: Hoa La, Ahan Gupta, Alex Morehead, Jianlin Cheng, Minjia Zhang,
Abstract要約: AF3トレーニングを加速するクロスプラットフォームシステムであるMegaFoldを提案する。 MegaFoldはAF3トレーニングのピークメモリ使用量を最大1.23$times$に削減し、最大1.73$times$と1.62$times$に改善した。
参考スコア（独自算出の注目度）: 17.994632753972958
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Protein structure prediction models such as AlphaFold3 (AF3) push the frontier of biomolecular modeling by incorporating science-informed architectural changes to the transformer architecture. However, these advances come at a steep system cost, introducing: compute- and memory-intensive operators, 2D attention mechanisms, and retrieval-augmented data pipelines, which collectively hinder the scalability of AF3 training. In this work, we present MegaFold, a cross-platform system to accelerate AF3 training. MegaFold tackles key bottlenecks through ahead-of-time caching to eliminate GPU idle time from the retrieval-augmented data pipeline, Triton-based kernels for memory-efficient EvoAttention on heterogeneous devices, and deep fusion for common and critical small operators in AF3. Evaluation on both NVIDIA H200 and AMD MI250 GPUs shows that MegaFold reduces peak memory usage of AF3 training by up to 1.23$\times$ and improves per-iteration training time by up-to 1.73$\times$ and 1.62$\times$ respectively. More importantly, MegaFold enables training on 1.35$\times$ longer sequence lengths compared to PyTorch baselines without running out-of-memory, significantly improving the scalability of modern protein folding models. We open source our code at https://github.com/Supercomputing-System-AI-Lab/MegaFold/.
Abstract（参考訳）: AlphaFold3 (AF3) のようなタンパク質構造予測モデルは、トランスフォーマーアーキテクチャに科学的な構造変化を取り入れることで、生体分子モデリングのフロンティアを推し進める。しかし、これらの進歩は、計算およびメモリ集約演算子、2Dアテンション機構、検索強化データパイプラインを導入し、AF3トレーニングのスケーラビリティを阻害するなど、システムコストが急上昇する。本稿では,AF3トレーニングを加速するクロスプラットフォームシステムであるMegaFoldを紹介する。 MegaFoldは、検索強化されたデータパイプラインからGPUアイドル時間を排除し、ヘテロジニアスデバイス上でメモリ効率の高いEvoAttentionのためのTritonベースのカーネル、AF3の一般的でクリティカルな小演算子のためのディープフュージョンといった、前向きのキャッシュを通じて重要なボトルネックに取り組む。 NVIDIA H200とAMD MI250の両方の評価によると、MegaFoldはAF3トレーニングのピークメモリ使用量を最大1.23$\times$に削減し、最大1.73$\times$と1.62$\times$に改善している。さらに重要なこととして、MegaFoldはPyTorchベースラインと比較して1.35$\times$長いシーケンス長のトレーニングを可能にし、現代のタンパク質折り畳みモデルのスケーラビリティを大幅に改善した。ソースコードはhttps://github.com/Supercomputing-System-AI-Lab/MegaFold/.comで公開しています。

関連論文リスト

Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文参考訳（メタデータ） (2025-06-03T06:02:50Z)
Ultra Memory-Efficient On-FPGA Training of Transformers via Tensor-Compressed Optimization [9.555456615472512]
本稿では,エンド・ツー・エンド・エンド・トランスフォーマー・トレーニングのための最初のFPGAアクセラレーションを提案する。アルゴリズム側では、テンソル化変圧器訓練のための双方向の収縮流を提示する。ハードウェア側では、高度に圧縮されたモデルパラメータと勾配情報をチップに格納する。
論文参考訳（メタデータ） (2025-01-11T23:29:51Z)
FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文参考訳（メタデータ） (2024-09-21T05:25:46Z)
TrIM, Triangular Input Movement Systolic Array for Convolutional Neural Networks: Architecture and Hardware Implementation [0.0]
TrIMは、入力の三角移動に基づく革新的なデータフローである。 TrIMは、最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減できる。アーキテクチャは、毎秒453.6ギガオペレーションのピークスループットを達成する。
論文参考訳（メタデータ） (2024-08-05T10:18:00Z)
fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence [50.417261057533786]
fVDBは、大規模な3Dデータのディープラーニングのための新しいフレームワークである。私たちのフレームワークは、既存のパイプラインとの相互運用性を可能にするPyTorchと完全に統合されています。
論文参考訳（メタデータ） (2024-07-01T20:20:33Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文参考訳（メタデータ） (2023-12-11T18:51:59Z)
FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor Cores [18.016204763652553]
長いフィルタを持つ畳み込みモデルは、多くの長いシーケンスタスクにおいて最先端の推論能力を示している。 Fast Fourier Transform (FFT) は、長い畳み込みを$O(N logN)$ time in sequence length $N$で実行可能にするが、ハードウェア利用は乏しい。本稿では,FFT畳み込みの最適化方法について検討する。
論文参考訳（メタデータ） (2023-11-10T07:33:35Z)
Laughing Hyena Distillery: Extracting Compact Recurrences From Convolutions [101.08706223326928]
近年のアテンションフリーシーケンスモデルの発展は、トランスフォーマーのコアにあるアテンション演算子の代替として、畳み込みに依存している。本稿では,事前学習した長大な畳み込みアーキテクチャにおいて,トークン当たりの計算コストとメモリコストを$mathcal O(1)$にすることを提案する。
論文参考訳（メタデータ） (2023-10-28T18:40:03Z)
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。 SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文参考訳（メタデータ） (2023-09-19T03:20:02Z)
GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文参考訳（メタデータ） (2022-07-18T06:01:29Z)
On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文参考訳（メタデータ） (2022-06-30T17:59:08Z)
Siamese Transformer Pyramid Networks for Real-Time UAV Tracking [3.0969191504482243]
本稿では,CNNとTransformerアーキテクチャの両方の利点を継承するSiamTPN(Siamese Transformer Pyramid Network)を紹介する。航空機と一般的な追跡ベンチマークの両方の実験は、高速で動作しながら競争的な結果を得る。我々の最速の可変トラッカーは、1つのCPUコアで30Hz以上で動作し、LaSOTデータセットで58.1%のAUCスコアを得る。
論文参考訳（メタデータ） (2021-10-17T13:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。