Fugu-MT 論文翻訳(概要): Training Compute-Optimal Protein Language Models

論文の概要: Training Compute-Optimal Protein Language Models

arxiv url: http://arxiv.org/abs/2411.02142v1
Date: Mon, 04 Nov 2024 14:58:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.107376
Title: Training Compute-Optimal Protein Language Models
Title（参考訳）: コンピュータ・最適タンパク質言語モデルの訓練
Authors: Xingyi Cheng, Bo Chen, Pan Li, Jing Gong, Jie Tang, Le Song,
Abstract要約: ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
参考スコア（独自算出の注目度）: 48.79416103951816
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We explore optimally training protein language models, an area of significant interest in biological research where guidance on best practices is limited. Most models are trained with extensive compute resources until performance gains plateau, focusing primarily on increasing model sizes rather than optimizing the efficient compute frontier that balances performance and compute budgets. Our investigation is grounded in a massive dataset consisting of 939 million protein sequences. We trained over 300 models ranging from 3.5 million to 10.7 billion parameters on 5 to 200 billion unique tokens, to investigate the relations between model sizes, training token numbers, and objectives. First, we observed the effect of diminishing returns for the Causal Language Model (CLM) and that of overfitting for the Masked Language Model~(MLM) when repeating the commonly used Uniref database. To address this, we included metagenomic protein sequences in the training set to increase the diversity and avoid the plateau or overfitting effects. Second, we obtained the scaling laws of CLM and MLM on Transformer, tailored to the specific characteristics of protein sequence data. Third, we observe a transfer scaling phenomenon from CLM to MLM, further demonstrating the effectiveness of transfer through scaling behaviors based on estimated Effectively Transferred Tokens. Finally, to validate our scaling laws, we compare the large-scale versions of ESM-2 and PROGEN2 on downstream tasks, encompassing evaluations of protein generation as well as structure- and function-related tasks, all within less or equivalent pre-training compute budgets.
Abstract（参考訳）: 我々は、ベストプラクティスに関するガイダンスが限られている生物研究において重要な関心の領域である、タンパク質言語モデルを最適に訓練することを検討する。ほとんどのモデルは、パフォーマンスと計算予算のバランスをとる効率的な計算フロンティアを最適化するのではなく、主にモデルサイズの増加に焦点を当てる。調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。私たちは、モデルサイズ、トークン番号のトレーニング、目的の関係を調べるために、5億から200億のユニークなトークンに対して、350万から107億のパラメータまで、300以上のモデルをトレーニングしました。まず、一般的に使われているUnirefデータベースを繰り返すと、因果言語モデル(CLM)のリターンが減少し、マスケッド言語モデル~(MLM)のオーバーフィッティングの影響を観測した。これを解決するため,トレーニングセットにメタゲノミクスタンパク質配列を組み込み,多様性を高め,プラトーやオーバーフィッティング効果を回避した。第2に、タンパク質配列データの特徴に合わせて、トランスフォーマー上のCLMおよびMLMのスケーリング法則を得た。第3に, CLM から MLM への遷移スケーリング現象を観察し, 推定有効転送トークンに基づくスケーリング挙動による移動の有効性を示す。最後に,私達のスケーリング法則を検証するために,エンドストリームタスクにおけるESM-2とPropergen2の大規模バージョンを比較した。

関連論文リスト

Should We Still Pretrain Encoders with Masked Language Modeling? [27.19054714197245]
最近の証拠は、コーサル言語モデリング(CLM)で事前訓練されたデコーダモデルをエンコーダとして効果的に再利用できることを示唆している。 2億1000万から10億のパラメータの合計38モデルをトレーニングし、15,000以上の微調整と評価を実行します。高いレベルのCLMを用いたトレーニングでは,テキスト表現タスク間で性能が向上する一方で,CLM学習モデルの方がデータ効率が良く,微調整安定性が向上していることがわかった。
論文参考訳（メタデータ） (2025-07-01T17:45:48Z)
Scaling Law for Language Models Training Considering Batch Size [17.09348741898811]
大規模言語モデル(LLM)は近年顕著な進歩を遂げており、この急速な進歩においてスケーリング法則が重要な役割を担っている。本稿は,LLMトレーニングの実践において,重要なハイパーパラメータ,すなわちグローバルバッチサイズがどのように影響するかを実証的に検討する。モデルのサイズとトレーニングデータ量に関する基本的なスケーリング法則を確立します。次に,バッチサイズや学習率の変化が,これらのモデルの収束と一般化にどのように影響するかを検討する。
論文参考訳（メタデータ） (2024-12-02T13:58:35Z)
Energy Efficient Protein Language Models: Leveraging Small Language Models with LoRA for Controllable Protein Generation [1.041213135652454]
制御不能なタンパク質生成と制御不能なタンパク質生成の両方が可能な2つの小さなタンパク質言語モデルを導入する。制御不能な生成タスクに対しては,pLDDTの平均スコア69.75を達成し,実行可能なタンパク質構造の生成において堅牢な性能を示す。また,エネルギー効率の高いET-SoC-1チップへのモデル展開を実証し,TPS/Wを3。
論文参考訳（メタデータ） (2024-11-08T20:52:06Z)
Aligning Large Language Models and Geometric Deep Models for Protein Representation [57.59506688299817]
遅延表現アライメントは、異なるモダリティからの埋め込みを共有空間にマッピングするために使用され、しばしば大きな言語モデル(LLM)の埋め込み空間と一致している。プリミティブなタンパク質中心の大規模言語モデル (MLLM) が登場したが、それらは表現の至る所で最適なアライメントの実践に関する根本的な理解が欠如しているアプローチに大きく依存している。本研究では,タンパク質領域におけるLLMと幾何学的深部モデル(GDM)のマルチモーダル表現のアライメントについて検討する。本研究は, モデルおよびタンパク質の観点からのアライメント要因について検討し, 現行アライメント手法の課題を特定し, アライメントプロセスを改善するための戦略を提案する。
論文参考訳（メタデータ） (2024-11-08T04:15:08Z)
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses [12.140433802768733]
我々は、Mistral-7B1、Llama-2-7B2、Llama-3-8B3、gemma-7B4を含む事前訓練されたLLM群を採用し、有効なタンパク質配列を生成する。我々はこれらのモデルを再訓練し、タンパク質関連データを処理し、生物学的に実現可能なタンパク質構造の生成を保証する。実験の結果, 限られたデータであっても, 適応されたモデルは, 確立されたタンパク質中心モデルに匹敵する効率を示すことがわかった。
論文参考訳（メタデータ） (2024-08-12T08:17:27Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
Are Protein Language Models Compute Optimal? [0.0]
固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
論文参考訳（メタデータ） (2024-06-11T13:32:11Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
Ankh: Optimized Protein Language Model Unlocks General-Purpose Modelling [0.0]
GoogleのTPU-v4でトレーニングされた最初の汎用タンパク言語モデルであるAnkhを紹介します。アンクは、タンパク質の進化保存変異の傾向を学習し、重要な構造-機能的特性を維持しながら機能的多様性を導入することに成功している。
論文参考訳（メタデータ） (2023-01-16T19:04:45Z)
Reprogramming Pretrained Language Models for Protein Sequence Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。 R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-01-05T15:55:18Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)
To Pretrain or Not to Pretrain: Examining the Benefits of Pretraining on Resource Rich Tasks [25.05882459314221]
トレーニングサンプルの数が数百万に増加するにつれ,細粒化BERTモデルと訓練用バニラLSTMとの精度のギャップは,スクラッチ狭さから1%以内に拡大した。その結果,教師付きデータのサイズが大幅に大きくなるにつれて,事前学習したモデルではリターンポイントが低下する可能性が示唆された。
論文参考訳（メタデータ） (2020-06-15T18:18:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。