論文の概要: No Generation without Representation: Efficient Causal Protein Language Models Enable Zero-Shot Fitness Estimation
- arxiv url: http://arxiv.org/abs/2602.01845v1
- Date: Mon, 02 Feb 2026 09:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.03356
- Title: No Generation without Representation: Efficient Causal Protein Language Models Enable Zero-Shot Fitness Estimation
- Title(参考訳): 表現のない生成:ゼロショット適合性推定が可能な効率的な因果タンパク質言語モデル
- Authors: Furkan Eris,
- Abstract要約: タンパク質言語モデル(PLM)は基本的な分割に直面し、マスク付き言語モデル(MLM)は適合度予測に優れ、因果モデルは生成を可能にする。
アーキテクチャの革新を通じてこのギャップを埋める309Mパラメータ因果PLMであるbfProustを紹介します。
- 参考スコア(独自算出の注目度): 0.10152838128195464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Protein language models (PLMs) face a fundamental divide: masked language models (MLMs) excel at fitness prediction while causal models enable generation, forcing practitioners to maintain separate architectures. We introduce \textbf{Proust}, a 309M-parameter causal PLM that bridges this gap through architectural innovations adapted from recent LLM research, including grouped-query attention with shared K/V projections, cross-layer value residuals, and depthwise causal convolutions. Trained on 33B tokens in 40 B200 GPU-hours, Proust achieves Spearman $ρ= 0.390$ on ProteinGym substitutions, competitive with MLMs requiring 50--200$\times$ the compute. On indels, Proust sets a new state-of-the-art, outperforming models up to 20$\times$ larger. On EVEREST viral fitness benchmarks, it approaches structure-aware methods using sequence alone. These powerful representations position Proust in a sweet spot as it also retains native generative capabilities that MLMs lack by design. Interpretability analysis reveals that per-position entropy variance predicts, to an extent, when retrieval augmentation helps and hurts. Such insights can grow in both quantity and quality at scale and inform capabilities such as test-time scaling. Code and weights are available at https://github.com/Furkan9015/proust-inference
- Abstract(参考訳): タンパク質言語モデル(PLM)は基本的な分割に直面している: マスク付き言語モデル(MLM)はフィットネス予測に優れ、因果モデルは生成を可能にし、実践者は別々のアーキテクチャを維持せざるを得ない。
我々は,このギャップを,最近のLLM研究に取り入れたアーキテクチャ革新を通じて橋渡しする,309Mのパラメータ因果的PLMであるtextbf{Proust}を紹介した。
40 B200 GPU-hoursで33BトークンでトレーニングされたProustは、Spearman $ρ = 0.390$ on ProteinGym substitutionsを達成し、50-200$\times$のMLMと競合する。
インデルスでは、Proustは20$\times$以上の新しい最先端のモデルを作成する。
EVERESTバイラルフィットネスベンチマークでは、シーケンスのみを使用した構造認識手法にアプローチする。
これらの強力な表現は、MLMが設計によって欠落しているネイティブな生成能力を保っているため、Proustをスイートスポットに位置づけている。
解釈可能性分析により、位置ごとのエントロピー変動は、検索の増大が助けになり、傷つくときにある程度予測されることが明らかになった。
このような洞察は、スケールにおける量と品質の両方で成長し、テストタイムスケーリングのような機能に通知する。
code and weights are available at https://github.com/Furkan9015/proust-inference
関連論文リスト
- Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs [80.72350166388601]
Nemotron Elasticは推論指向のLLMを構築するためのフレームワークである。
ネストしたサブモデルを単一の親モデルに組み込む。
これらのサブモデルはそれぞれ、親モデルと重みを共有し、デプロイ中にゼロショットを抽出できる。
論文 参考訳(メタデータ) (2025-11-20T18:59:21Z) - AWM: Accurate Weight-Matrix Fingerprint for Large Language Models [44.93519442566325]
重み行列に基づくトレーニング不要な指紋認証手法を提案する。
線形アサインメント問題(LAP)と不偏中心カーネルアライメント(CKA)の類似性を利用してパラメータ操作の効果を中和する。
本手法は, 上記の6項目すべてに対して, 偽陽性のほぼゼロのリスクを示しながら, 例外的な堅牢性を示す。
論文 参考訳(メタデータ) (2025-10-08T07:51:11Z) - Should We Still Pretrain Encoders with Masked Language Modeling? [27.19054714197245]
最近の証拠は、コーサル言語モデリング(CLM)で事前訓練されたデコーダモデルをエンコーダとして効果的に再利用できることを示唆している。
2億1000万から10億のパラメータの合計38モデルをトレーニングし、15,000以上の微調整と評価を実行します。
高いレベルのCLMを用いたトレーニングでは,テキスト表現タスク間で性能が向上する一方で,CLM学習モデルの方がデータ効率が良く,微調整安定性が向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-01T17:45:48Z) - Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Are Protein Language Models Compute Optimal? [0.0]
固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。
本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。
この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
論文 参考訳(メタデータ) (2024-06-11T13:32:11Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。