論文の概要: ProteinJEPA: Latent prediction complements protein language models
- arxiv url: http://arxiv.org/abs/2605.07554v1
- Date: Fri, 08 May 2026 10:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.994367
- Title: ProteinJEPA: Latent prediction complements protein language models
- Title(参考訳): タンパク質JEPA:潜伏予測はタンパク質言語モデルを補完する
- Authors: Dan Ofer, Dafna Shahaf, Michal Linial,
- Abstract要約: 最適なタンパク質配置+JEPA設計は、全て潜伏予測ではなく、変種である。
潜航目標をマスクされた位置のみ予測し、交叉エントロピーを保持する。
- 参考スコア(独自算出の注目度): 8.413205993075394
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Protein language models are trained primarily with masked language modeling (MLM), which predicts amino-acid identities at masked positions. We ask whether latent-space prediction can complement these token-level objectives under matched wall-clock budget. Across pretrained and random-init protein sequence encoders at 35--150M parameters, we find that the best protein-JEPA design is not all-position latent prediction but a variant: predicting latent targets only at masked positions, and retaining the MLM cross-entropy. We call this recipe masked-position MLM+JEPA. On a 16-task downstream suite (15 frozen linear probes plus SCOPe-40 zero-shot fold retrieval), under matched wall-clock budgets, this recipe wins more tasks than it loses against MLM-only continuation: 10 wins / 3 losses / 3 ties (hereafter W/L/T) on pretrained ESM2-35M, 11/2/3 on ESM2-150M while results in pretraining from scratch are mixed (6/8/2). Gains are seen for multiple models on 11 of 16 tasks, including stability, \b{eta}β\b{eta}-lactamase fitness, variant effect, intrinsic disorder, remote homology, enzyme classification, and SCOPe-40 fold retrieval. Tasks with more losses than wins are Fluorescence (TAPE) and Peptide-HLA Binding. All-position MLM+JEPA matches MLM-only overall but does not reproduce the masked-position gains. JEPA-only (no MLM) collapses in nearly every experiment. We conclude that JEPA, when combined with MLM, is competitive and can outperform pure MLM in pretraining and continued training, even under matched wall-clock budgets.
- Abstract(参考訳): タンパク質言語モデルは、主にマスメッド言語モデリング(MLM)を用いて訓練され、マスメッド位置におけるアミノ酸の同一性を予測する。
壁面に整合した予算の下で,遅延空間予測がこれらのトークンレベルの目的を補完できるかどうかを問う。
予め訓練されたタンパク質配列エンコーダを35-150Mパラメータで使用し, 最適タンパク質-JEPA設計は全位置潜伏予測ではなく, マスク位置のみに潜伏ターゲットを予測し, MLMのクロスエントロピーを保持する変種であることが確認された。
我々はこのレシピをMLM+JEPAと呼ぶ。
16タスクの下流スイート(15凍結線形プローブとSCOPe-40ゼロショットフォールド検索)では、マッチしたウォールタイムの予算の下で、このレシピは、MLMのみの継続よりも多くのタスクを勝ち取る:事前訓練されたESM2-35Mでは10勝/3損失/3ネクタイ(以下、W/L/T)、ESM2-150Mでは11/2/3、スクラッチから事前訓練した結果は混合(6/8/2)。
16のタスクのうち、安定性、 \b{eta}β\b{eta}-lactamase 適合性、変異効果、内因性障害、リモートホモロジー、酵素分類、SCOPe-40 fold 検索など、11のタスクの複数のモデルでゲインが見られる。
勝利よりも損失が大きいタスクは、蛍光(TAPE)とペプチド-HLA結合である。
全位置 MLM+JEPA は MLM のみに一致するが、マスクした位置のゲインを再現しない。
JEPAのみ(MLMなし)は、ほぼすべての実験で崩壊する。
我々は,MLMと組み合わせたJEPAが,壁面の予算が一致しても,事前トレーニングや継続トレーニングにおいて,純粋なMLMよりも優れた性能を発揮することを結論付けた。
関連論文リスト
- ProtSent: Protein Sentence Transformers [6.657830371527077]
タンパク質言語モデル (pLM) は、進化的および構造的情報をキャプチャする残基ごとの表現を生成する。
本稿では、PLMを汎用埋め込みモデルに適応させるための対照的な微調整フレームワークであるProtSent(ProtSent)を提案する。
論文 参考訳(メタデータ) (2026-05-07T18:33:49Z) - No Generation without Representation: Efficient Causal Protein Language Models Enable Zero-Shot Fitness Estimation [0.10152838128195464]
タンパク質言語モデル(PLM)は基本的な分割に直面し、マスク付き言語モデル(MLM)は適合度予測に優れ、因果モデルは生成を可能にする。
アーキテクチャの革新を通じてこのギャップを埋める309Mパラメータ因果PLMであるbfProustを紹介します。
論文 参考訳(メタデータ) (2026-02-02T09:17:09Z) - Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文 参考訳(メタデータ) (2025-12-10T05:34:47Z) - Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations [0.3124884279860061]
タンパク質言語モデル(PLM)は、タンパク質配列の複雑なパターンを検出する強力なツールとして登場した。
PLMのマルチタスク事前学習戦略について検討した。
このマルチタスク事前学習は、PLMがタンパク質配列のみからよりリッチでより一般化可能な表現を学習できることを実証した。
論文 参考訳(メタデータ) (2025-05-26T14:41:10Z) - Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。
HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。
本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:08:18Z) - Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - Filtered not Mixed: Stochastic Filtering-Based Online Gating for Mixture of Large Language Models [18.368001176275364]
MoE-Fは、オンライン時系列予測に$N$事前訓練された大規模言語モデル(LLM)を組み合わせるための形式化されたメカニズムである。
我々のメカニズムは,各専門家のランニング性能の条件情報を利用して,次のステップで時系列を予測するためのLLMの最適な組み合わせを予測する。
論文 参考訳(メタデータ) (2024-06-05T05:53:50Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。