論文の概要: LightNobel: Improving Sequence Length Limitation in Protein Structure Prediction Model via Adaptive Activation Quantization
- arxiv url: http://arxiv.org/abs/2505.05893v1
- Date: Fri, 09 May 2025 09:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.215249
- Title: LightNobel: Improving Sequence Length Limitation in Protein Structure Prediction Model via Adaptive Activation Quantization
- Title(参考訳): LightNobel: 適応活性化量子化によるタンパク質構造予測モデルにおけるシーケンス長制限の改善
- Authors: Seunghee Han, Soongyu Choi, Joo-Young Kim,
- Abstract要約: 我々は,タンパク質構造予測モデル(PPM)におけるシーケンス長のスケーラビリティ制限を克服する,初のハードウェア・ソフトウェア共同設計アクセラレータであるLightNobelを紹介する。
ソフトウェアレベルでは、精度を損なうことなく微細な量子化技術を実現するために、Token-wise Adaptive Activation Quantization (AAQ)を提案する。
ハードウェアレベルでは、マルチ精度再構成可能な行列処理ユニット(RMPU)と汎用ベクトル処理ユニット(VVPU)を統合して、AAQの効率的な実行を可能にする。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Protein Structure Prediction Models (PPMs), such as AlphaFold2 and ESMFold, have revolutionized computational biology by achieving unprecedented accuracy in predicting three-dimensional protein folding structures. However, these models face significant scalability challenges, particularly when processing proteins with long amino acid sequences (e.g., sequence length > 1,000). The primary bottleneck that arises from the exponential growth in activation sizes is driven by the unique data structure in PPM, which introduces an additional dimension that leads to substantial memory and computational demands. These limitations have hindered the effective scaling of PPM for real-world applications, such as analyzing large proteins or complex multimers with critical biological and pharmaceutical relevance. In this paper, we present LightNobel, the first hardware-software co-designed accelerator developed to overcome scalability limitations on the sequence length in PPM. At the software level, we propose Token-wise Adaptive Activation Quantization (AAQ), which leverages unique token-wise characteristics, such as distogram patterns in PPM activations, to enable fine-grained quantization techniques without compromising accuracy. At the hardware level, LightNobel integrates the multi-precision reconfigurable matrix processing unit (RMPU) and versatile vector processing unit (VVPU) to enable the efficient execution of AAQ. Through these innovations, LightNobel achieves up to 8.44x, 8.41x speedup and 37.29x, 43.35x higher power efficiency over the latest NVIDIA A100 and H100 GPUs, respectively, while maintaining negligible accuracy loss. It also reduces the peak memory requirement up to 120.05x in PPM, enabling scalable processing for proteins with long sequences.
- Abstract(参考訳): AlphaFold2やESMFoldのようなタンパク質構造予測モデル(PPM)の最近の進歩は、3次元タンパク質の折り畳み構造の予測において前例のない精度を達成することによって、計算生物学に革命をもたらした。
しかし、これらのモデルは、特に長いアミノ酸配列(例えば、配列の長さ > 1,000)でタンパク質を処理する場合、大きなスケーラビリティ上の課題に直面している。
アクティベーションサイズが指数関数的に増加することから生じる主要なボトルネックは、PPMのユニークなデータ構造によって引き起こされる。
これらの制限は、大きなタンパク質や複雑な多量体を重要な生物学的および医薬的関連性で分析するなど、現実世界の応用におけるPPMの効果的なスケーリングを妨げている。
本稿では,PPMにおけるシーケンス長のスケーラビリティ制限を克服するために開発された,初のハードウェア・ソフトウェア共同設計アクセラレータであるLightNobelを紹介する。
ソフトウェアレベルでは、PPMアクティベーションにおけるディストグラムパターンなどのユニークなトークンワイド特性を活用し、精度を損なうことなく微細な量子化技術を実現するToken-wise Adaptive Activation Quantization (AAQ)を提案する。
ハードウェアレベルでは、マルチ精度再構成可能な行列処理ユニット(RMPU)と汎用ベクトル処理ユニット(VVPU)を統合して、AAQの効率的な実行を可能にする。
これらのイノベーションを通じて、LightNobelは最新のNVIDIA A100およびH100 GPUよりも最大8.44倍、8.41倍、37.29倍、43.35倍高い電力効率を達成する。
また、PPMのピークメモリ要求を最大120.05倍に減らし、長い配列を持つタンパク質のスケーラブルな処理を可能にした。
関連論文リスト
- Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文 参考訳(メタデータ) (2025-06-09T17:59:34Z) - ProteinZero: Self-Improving Protein Generation via Online Reinforcement Learning [49.2607661375311]
本稿では,逆折り畳みモデルの計算的拡張性,自動化,継続的な自己改善を可能にする新しいフレームワークであるProteinZeroを提案する。
ProteinZeroは、タンパク質設計のすべての主要な指標において、既存の手法を大幅に上回っている。
特に、CATH-4.3上で実行されるRL全体は、報酬を含む3日以内に1つの8X GPUノードで実行できる。
論文 参考訳(メタデータ) (2025-06-09T06:08:59Z) - Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction [19.164841536081568]
Prot2Tokenは、タンパク質関連予測の幅広い範囲を変換することで、課題を克服する統合フレームワークである。
Prot2Tokenのコアは自動回帰デコーダで、事前訓練されたタンパク質エンコーダの埋め込みを条件とし、学習可能なタスクトークンでガイドされる。
Prot2Tokensは様々な種類のタンパク質予測タスクにおいて強い予測力を示す。
論文 参考訳(メタデータ) (2025-05-26T23:50:36Z) - FFN Fusion: Rethinking Sequential Computation in Large Language Models [16.8637819797503]
本稿では,大規模言語モデルにおける逐次計算を減らしたアーキテクチャ最適化手法であるFFN Fusionを紹介する。
我々は、このようなシーケンスを同定し、融合し、それらを並列操作に変換するための、原則化された方法論を開発した。
これらの手法をLlama-3.1-405B-Instructに適用することにより、推論遅延の1.71倍の高速化と、トークンあたりのコストの35倍の削減を実現する、効率的かつ間もなく公開されるモデルを構築する。
論文 参考訳(メタデータ) (2025-03-24T17:20:35Z) - Design and Implementation of an FPGA-Based Tiled Matrix Multiplication Accelerator for Transformer Self-Attention on the Xilinx KV260 SoM [0.0]
トランスフォーマーベースの大規模言語モデルは、注意層とフィードフォワード層のための行列乗法に大きく依存している。
資源制約付き Xilinx KV260 FPGA 上で,高度に最適化されたタイル行列乗算アクセラレータを提案する。
我々の設計では、永続的なオンチップストレージ、最大データ再利用のための堅牢な2レベルタイリング戦略、およびシストリックのような非ローリング計算エンジンを活用している。
論文 参考訳(メタデータ) (2025-03-20T22:15:42Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Token-Mol 1.0: Tokenized drug design with large language model [10.258299488278514]
Token-Molはトークンのみの3Dドラッグデザインモデルで、2Dや3D構造を含む全ての分子情報をトークンにエンコードする。
トランスデコーダアーキテクチャ上に構築され、ランダム因果マスキング技術を用いて訓練されている。
既存の分子事前学習モデルと比較して、Token-Molはより幅広い下流タスクを扱うのに優れた習熟度を示す。
論文 参考訳(メタデータ) (2024-07-10T07:22:15Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。