論文の概要: Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design
- arxiv url: http://arxiv.org/abs/2512.09329v1
- Date: Wed, 10 Dec 2025 05:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.405578
- Title: Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design
- Title(参考訳): タンパク質言語モデルの自己蒸留細調整によるタンパク質設計の妥当性向上
- Authors: Amin Tavakoli, Raswanth Murugan, Ozan Gokdemir, Arvind Ramanathan, Frances Arnold, Anima Anandkumar,
- Abstract要約: Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
- 参考スコア(独自算出の注目度): 61.2846583160056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) is a standard approach for adapting large language models to specialized domains, yet its application to protein sequence modeling and protein language models (PLMs) remains ad hoc. This is in part because high-quality annotated data are far more difficult to obtain for proteins than for natural language. We present a simple and general recipe for fast SFT of PLMs, designed to improve the fidelity, reliability, and novelty of generated protein sequences. Unlike existing approaches that require costly precompiled experimental datasets for SFT, our method leverages the PLM itself, integrating a lightweight curation pipeline with domain-specific filters to construct high-quality training data. These filters can independently refine a PLM's output and identify candidates for in vitro evaluation; when combined with SFT, they enable PLMs to generate more stable and functional enzymes, while expanding exploration into protein sequence space beyond natural variants. Although our approach is agnostic to both the choice of protein language model (PLM) and the protein system, we demonstrate its effectiveness with a genome-scale PLM (GenSLM) applied to the tryptophan synthase enzyme family. The supervised fine-tuned model generates sequences that are not only more novel but also display improved characteristics across both targeted design constraints and emergent protein property measures.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、特定のドメインに大規模言語モデルを適用するための標準的なアプローチであるが、タンパク質配列モデリングおよびタンパク質言語モデル(PLM)への応用は、いまだにアドホックである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための単純かつ汎用的なレシピを提案する。
SFTのための高価なプリコンパイルされた実験データセットを必要とする既存のアプローチとは異なり、我々の手法はPLM自体を活用し、軽量なキュレーションパイプラインとドメイン固有のフィルタを統合して高品質なトレーニングデータを構築する。
これらのフィルターは独立してPLMの出力を精製し、SFTと組み合わせると、PLMはより安定で機能的な酵素を生成でき、天然変種を超えてタンパク質配列空間への探索を拡大することができる。
本手法はタンパク質言語モデル (PLM) とタンパク質システムの両方に非依存的であるが, トリプトファン合成酵素ファミリーに応用したゲノムスケールPLM (GenSLM) の有効性を示す。
教師付き微調整モデルでは、新規なだけでなく、ターゲットとする設計制約と創発的タンパク質特性測定の両方に改善された特性を示す配列を生成する。
関連論文リスト
- Steering Protein Language Models [22.308373820985793]
アクティベーションステアリング(Activation Steering)は、大規模言語モデルにおけるテキスト生成を制御するために開発された技術である。
本稿では, PLM 出力をステアリングするために, アクティベーション編集を利用する簡易かつ効果的な手法を提案する。
本手法は自動符号化と自動回帰PLMの両方にシームレスに統合できるが,追加の訓練は不要である。
論文 参考訳(メタデータ) (2025-07-01T16:03:55Z) - Controllable Protein Sequence Generation with LLM Preference Optimization [19.28325662879149]
我々はCtrlProtと呼ばれる新しい制御可能なタンパク質設計法を提案する。
実験により、CtrlProtは機能と構造安定性の要求を効果的に満たせることが示された。
論文 参考訳(メタデータ) (2025-01-25T00:59:12Z) - Large Language Model is Secretly a Protein Sequence Optimizer [24.55348363931866]
本研究では,与えられた野生型配列から,高い適合度を持つタンパク質配列を見つけることを目的としたタンパク質配列工学的問題を考える。
大規模言語モデル(LLM)は、大量のテキストで訓練されているにもかかわらず、秘密裏にタンパク質配列であることを示す。
論文 参考訳(メタデータ) (2025-01-16T03:44:16Z) - Long-context Protein Language Modeling Using Bidirectional Mamba with Shared Projection Layers [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで本研究では,選択的構造化状態空間モデルに基づく代替タンパク質であるBiMamba-Sに基づくLC-PLMを提案する。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language
Models [0.0]
現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化されることが多い。
タンパク質言語モデル(pLM)はタンパク質配列設計のための有望なツールである。
ProtFIMとよばれる中間変換によって訓練された言語モデルは、タンパク質工学により適していることを示す。
論文 参考訳(メタデータ) (2023-03-29T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。