論文の概要: Energy Efficient Protein Language Models: Leveraging Small Language Models with LoRA for Controllable Protein Generation
- arxiv url: http://arxiv.org/abs/2411.05966v1
- Date: Fri, 08 Nov 2024 20:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:07:43.520608
- Title: Energy Efficient Protein Language Models: Leveraging Small Language Models with LoRA for Controllable Protein Generation
- Title(参考訳): エネルギー効率の良いタンパク質言語モデル:LoRAを用いた小言語モデルによる制御可能なタンパク質生成
- Authors: Aayush Shah, Shankar Jayaratnam,
- Abstract要約: 制御不能なタンパク質生成と制御不能なタンパク質生成の両方が可能な2つの小さなタンパク質言語モデルを導入する。
制御不能な生成タスクに対しては,pLDDTの平均スコア69.75を達成し,実行可能なタンパク質構造の生成において堅牢な性能を示す。
また,エネルギー効率の高いET-SoC-1チップへのモデル展開を実証し,TPS/Wを3。
- 参考スコア(独自算出の注目度): 1.041213135652454
- License:
- Abstract: Large language models (LLMs) have demonstrated significant success in natural language processing (NLP) tasks and have shown promising results in other domains such as protein sequence generation. However, there remain salient differences between LLMs used for NLP, which effectively handle multiple tasks and are available in small sizes, and protein language models that are often specialized for specific tasks and only exist in larger sizes. In this work, we introduce two small protein language models, based on Llama-3-8B and Phi-3-mini, that are capable of both uncontrollable and controllable protein generation. For the uncontrollable generation task, our best model achieves an average pLDDT score of 69.75, demonstrating robust performance in generating viable protein structures. For the controllable generation task, in which the model generates proteins according to properties specified in the prompt, we achieve a remarkable average TM-Score of 0.84, indicating high structural similarity to target proteins. We chose 10 properties, including six classes of enzymes, to extend the capabilities of prior protein language models. Our approach utilizes the Low-Rank Adaptor (LoRA) technique, reducing trainable parameters to just 4% of the original model size, lowering computational requirements. By using a subset of the UniRef50 dataset and small models, we reduced the overall training time by 70% without compromising performance. Notably, Phi-3-mini reduced trainable parameters by 60%, decreasing training cost by 30% compared to Llama 3. Consequently, Phi-3 achieved a comparable TM-Score of 0.81, demonstrating that smaller models can match the performance of larger ones, like Llama 3. We also demonstrate the deployment of our models on the energy efficient ET-SoC-1 chip, significantly improving the TPS/W by a factor of 3.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな成功を収めており、タンパク質配列生成などの他の領域で有望な結果を示している。
しかし、複数のタスクを効果的に処理し、小さなサイズで利用できるLPMと、特定のタスクに特化して大きなサイズにしか存在しないタンパク質言語モデルとの間には、相応の相違がある。
本研究ではLlama-3-8BとPhi-3-miniをベースとした2つの小さなタンパク質言語モデルを導入する。
制御不能な生成タスクに対しては,pLDDTの平均スコア69.75を達成し,実行可能なタンパク質構造の生成において堅牢な性能を示す。
モデルがプロンプトで指定された特性に応じてタンパク質を生成する制御可能な生成タスクにおいて、ターゲットタンパク質と高い構造的類似性を示す平均TMスコア0.84を達成する。
6種類の酵素を含む10の特性を選択し、タンパク質言語モデルの能力を拡張した。
提案手法はローランド適応 (LoRA) 技術を用いて,トレーニング可能なパラメータを元のモデルサイズの4%に削減し,計算要求を低くする。
UniRef50データセットのサブセットと小さなモデルを使用することで、パフォーマンスを損なうことなく、全体的なトレーニング時間を70%削減しました。
特に、Phi-3-miniはトレーニング可能なパラメータを60%削減し、Llama 3と比較してトレーニングコストを30%削減した。
その結果、Phi-3 は TM-Score の 0.81 を達成し、より小型のモデルが Llama 3 のようなより大きなモデルの性能に匹敵することを示した。
また,エネルギー効率の高いET-SoC-1チップへのモデル展開を実証し,TPS/Wを3。
関連論文リスト
- Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - Design Proteins Using Large Language Models: Enhancements and Comparative Analyses [12.140433802768733]
我々は、Mistral-7B1、Llama-2-7B2、Llama-3-8B3、gemma-7B4を含む事前訓練されたLLM群を採用し、有効なタンパク質配列を生成する。
我々はこれらのモデルを再訓練し、タンパク質関連データを処理し、生物学的に実現可能なタンパク質構造の生成を保証する。
実験の結果, 限られたデータであっても, 適応されたモデルは, 確立されたタンパク質中心モデルに匹敵する効率を示すことがわかった。
論文 参考訳(メタデータ) (2024-08-12T08:17:27Z) - Are Protein Language Models Compute Optimal? [0.0]
固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。
本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。
この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
論文 参考訳(メタデータ) (2024-06-11T13:32:11Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - PETA: Evaluating the Impact of Protein Transfer Learning with Sub-word
Tokenization on Downstream Applications [9.782175445247127]
PETAは3つのトークン化法の下で14の異なる語彙サイズを持つ言語モデルを訓練した。
モデル転送学習能力を評価するために、33のさまざまな下流データセット上で数千のテストを実行した。
実験の結果、50から200までの語彙サイズがモデルを最適化するのに対し、800を超えるサイズはモデルの表現性能に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2023-10-26T14:20:44Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文 参考訳(メタデータ) (2022-02-08T22:10:40Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。