論文の概要: LightNobel: Improving Sequence Length Limitation in Protein Structure Prediction Model via Adaptive Activation Quantization
- arxiv url: http://arxiv.org/abs/2505.05893v1
- Date: Fri, 09 May 2025 09:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.215249
- Title: LightNobel: Improving Sequence Length Limitation in Protein Structure Prediction Model via Adaptive Activation Quantization
- Title(参考訳): LightNobel: 適応活性化量子化によるタンパク質構造予測モデルにおけるシーケンス長制限の改善
- Authors: Seunghee Han, Soongyu Choi, Joo-Young Kim,
- Abstract要約: 我々は,タンパク質構造予測モデル(PPM)におけるシーケンス長のスケーラビリティ制限を克服する,初のハードウェア・ソフトウェア共同設計アクセラレータであるLightNobelを紹介する。
ソフトウェアレベルでは、精度を損なうことなく微細な量子化技術を実現するために、Token-wise Adaptive Activation Quantization (AAQ)を提案する。
ハードウェアレベルでは、マルチ精度再構成可能な行列処理ユニット(RMPU)と汎用ベクトル処理ユニット(VVPU)を統合して、AAQの効率的な実行を可能にする。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Protein Structure Prediction Models (PPMs), such as AlphaFold2 and ESMFold, have revolutionized computational biology by achieving unprecedented accuracy in predicting three-dimensional protein folding structures. However, these models face significant scalability challenges, particularly when processing proteins with long amino acid sequences (e.g., sequence length > 1,000). The primary bottleneck that arises from the exponential growth in activation sizes is driven by the unique data structure in PPM, which introduces an additional dimension that leads to substantial memory and computational demands. These limitations have hindered the effective scaling of PPM for real-world applications, such as analyzing large proteins or complex multimers with critical biological and pharmaceutical relevance. In this paper, we present LightNobel, the first hardware-software co-designed accelerator developed to overcome scalability limitations on the sequence length in PPM. At the software level, we propose Token-wise Adaptive Activation Quantization (AAQ), which leverages unique token-wise characteristics, such as distogram patterns in PPM activations, to enable fine-grained quantization techniques without compromising accuracy. At the hardware level, LightNobel integrates the multi-precision reconfigurable matrix processing unit (RMPU) and versatile vector processing unit (VVPU) to enable the efficient execution of AAQ. Through these innovations, LightNobel achieves up to 8.44x, 8.41x speedup and 37.29x, 43.35x higher power efficiency over the latest NVIDIA A100 and H100 GPUs, respectively, while maintaining negligible accuracy loss. It also reduces the peak memory requirement up to 120.05x in PPM, enabling scalable processing for proteins with long sequences.
- Abstract(参考訳): AlphaFold2やESMFoldのようなタンパク質構造予測モデル(PPM)の最近の進歩は、3次元タンパク質の折り畳み構造の予測において前例のない精度を達成することによって、計算生物学に革命をもたらした。
しかし、これらのモデルは、特に長いアミノ酸配列(例えば、配列の長さ > 1,000)でタンパク質を処理する場合、大きなスケーラビリティ上の課題に直面している。
アクティベーションサイズが指数関数的に増加することから生じる主要なボトルネックは、PPMのユニークなデータ構造によって引き起こされる。
これらの制限は、大きなタンパク質や複雑な多量体を重要な生物学的および医薬的関連性で分析するなど、現実世界の応用におけるPPMの効果的なスケーリングを妨げている。
本稿では,PPMにおけるシーケンス長のスケーラビリティ制限を克服するために開発された,初のハードウェア・ソフトウェア共同設計アクセラレータであるLightNobelを紹介する。
ソフトウェアレベルでは、PPMアクティベーションにおけるディストグラムパターンなどのユニークなトークンワイド特性を活用し、精度を損なうことなく微細な量子化技術を実現するToken-wise Adaptive Activation Quantization (AAQ)を提案する。
ハードウェアレベルでは、マルチ精度再構成可能な行列処理ユニット(RMPU)と汎用ベクトル処理ユニット(VVPU)を統合して、AAQの効率的な実行を可能にする。
これらのイノベーションを通じて、LightNobelは最新のNVIDIA A100およびH100 GPUよりも最大8.44倍、8.41倍、37.29倍、43.35倍高い電力効率を達成する。
また、PPMのピークメモリ要求を最大120.05倍に減らし、長い配列を持つタンパク質のスケーラブルな処理を可能にした。
関連論文リスト
- FFN Fusion: Rethinking Sequential Computation in Large Language Models [16.8637819797503]
本稿では,大規模言語モデルにおける逐次計算を減らしたアーキテクチャ最適化手法であるFFN Fusionを紹介する。
我々は、このようなシーケンスを同定し、融合し、それらを並列操作に変換するための、原則化された方法論を開発した。
これらの手法をLlama-3.1-405B-Instructに適用することにより、推論遅延の1.71倍の高速化と、トークンあたりのコストの35倍の削減を実現する、効率的かつ間もなく公開されるモデルを構築する。
論文 参考訳(メタデータ) (2025-03-24T17:20:35Z) - Design and Implementation of an FPGA-Based Tiled Matrix Multiplication Accelerator for Transformer Self-Attention on the Xilinx KV260 SoM [0.0]
トランスフォーマーベースの大規模言語モデルは、注意層とフィードフォワード層のための行列乗法に大きく依存している。
資源制約付き Xilinx KV260 FPGA 上で,高度に最適化されたタイル行列乗算アクセラレータを提案する。
我々の設計では、永続的なオンチップストレージ、最大データ再利用のための堅牢な2レベルタイリング戦略、およびシストリックのような非ローリング計算エンジンを活用している。
論文 参考訳(メタデータ) (2025-03-20T22:15:42Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Token-Mol 1.0: Tokenized drug design with large language model [10.258299488278514]
Token-Molはトークンのみの3Dドラッグデザインモデルで、2Dや3D構造を含む全ての分子情報をトークンにエンコードする。
トランスデコーダアーキテクチャ上に構築され、ランダム因果マスキング技術を用いて訓練されている。
既存の分子事前学習モデルと比較して、Token-Molはより幅広い下流タスクを扱うのに優れた習熟度を示す。
論文 参考訳(メタデータ) (2024-07-10T07:22:15Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。