論文の概要: Are Protein Language Models Compute Optimal?
- arxiv url: http://arxiv.org/abs/2406.07249v1
- Date: Tue, 11 Jun 2024 13:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 15:54:07.303960
- Title: Are Protein Language Models Compute Optimal?
- Title(参考訳): タンパク質言語モデルは最適か?
- Authors: Yaiza Serrano, Álvaro Ciudad, Alexis Molina,
- Abstract要約: 固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。
本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。
この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While protein language models (pLMs) have transformed biological research, the scaling laws governing their improvement remain underexplored. By adapting methodologies from NLP scaling laws, we investigated the optimal ratio between model parameters and training tokens within a fixed compute budget. Our study reveals that pLM sizes scale sublinearly with compute budget, showing diminishing returns in performance as model size increases, and we identify a performance plateau in training loss comparable to the one found in relevant works in the field. Our findings suggest that widely-used pLMs might not be compute-optimal, indicating that larger models could achieve convergence more efficiently. Training a 35M model on a reduced token set, we attained perplexity results comparable to larger models like ESM-2 (15B) and xTrimoPGLM (100B) with a single dataset pass. This work paves the way towards more compute-efficient pLMs, democratizing their training and practical application in computational biology.
- Abstract(参考訳): タンパク質言語モデル (pLMs) は生物学的研究に変化をもたらしたが、その改善を規定するスケーリング法則は未解明のままである。
NLPスケーリング法則からの方法論の適用により,固定された計算予算内でのモデルパラメータとトレーニングトークンの最適比を検討した。
本研究は,pLMサイズが計算予算に比例してスケールし,モデルサイズが大きくなるにつれて性能が低下することを示した。
以上の結果から,広く使用されているpLMは計算最適ではない可能性が示唆され,より大きなモデルの方がより効率的に収束できる可能性が示唆された。
トークンセットの縮小で35Mモデルをトレーニングし,ESM-2 (15B) や xTrimoPGLM (100B) のような大規模モデルに匹敵する複雑な結果を得た。
この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
関連論文リスト
- Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models [46.959380978972206]
大規模言語モデル(LLM)学習における推論スケーリング法則と計算最適推論について検討する。
計算最適推論手法の理解と設計に向けた第一歩として,推論戦略のコストパフォーマンストレードオフについて検討した。
以上の結果から,Llemma-7Bのようなより小さなモデルでは,計算予算が同じであれば,より大きなモデルよりも優れた性能が得られることが示唆された。
論文 参考訳(メタデータ) (2024-08-01T17:16:04Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。
分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。
LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文 参考訳(メタデータ) (2024-05-02T02:20:12Z) - Scaling Laws for Fine-Grained Mixture of Experts [4.412803924115907]
ミキチャー・オブ・エキスパート(MoE)モデルは、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。
本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。
トレーニングトークンの数、モデルサイズ、粒度を考慮して、粒度の細かいMoEのスケーリング法則を確立します。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。