論文の概要: Large Language Model is Secretly a Protein Sequence Optimizer
- arxiv url: http://arxiv.org/abs/2501.09274v2
- Date: Fri, 17 Jan 2025 15:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:06:13.926032
- Title: Large Language Model is Secretly a Protein Sequence Optimizer
- Title(参考訳): タンパク質配列最適化のための大規模言語モデル
- Authors: Yinkai Wang, Jiaxing He, Yuanqi Du, Xiaohui Chen, Jianan Canal Li, Li-Ping Liu, Xiaolin Xu, Soha Hassoun,
- Abstract要約: 本研究では,与えられた野生型配列から,高い適合度を持つタンパク質配列を見つけることを目的としたタンパク質配列工学的問題を考える。
大規模言語モデル(LLM)は、大量のテキストで訓練されているにもかかわらず、秘密裏にタンパク質配列であることを示す。
- 参考スコア(独自算出の注目度): 24.55348363931866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the protein sequence engineering problem, which aims to find protein sequences with high fitness levels, starting from a given wild-type sequence. Directed evolution has been a dominating paradigm in this field which has an iterative process to generate variants and select via experimental feedback. We demonstrate large language models (LLMs), despite being trained on massive texts, are secretly protein sequence optimizers. With a directed evolutionary method, LLM can perform protein engineering through Pareto and experiment-budget constrained optimization, demonstrating success on both synthetic and experimental fitness landscapes.
- Abstract(参考訳): 本研究では,与えられた野生型配列から,高い適合度を持つタンパク質配列を見つけることを目的としたタンパク質配列工学的問題を考える。
方向性進化はこの分野で支配的なパラダイムであり、変種を生成し、実験的なフィードバックを通じて選択する反復的なプロセスを持っている。
大規模言語モデル (LLM) は、大量のテキストで訓練されているにもかかわらず、秘密裏にタンパク質配列オプティマイザであることを示す。
誘導進化法により、LLMはパレートと実験予算の制約された最適化を通じてタンパク質工学を行い、合成と実験の両方のフィットネスランドスケープで成功を示すことができる。
関連論文リスト
- Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文 参考訳(メタデータ) (2025-12-10T05:34:47Z) - Boosting In-Silicon Directed Evolution with Fine-Tuned Protein Language Model and Tree Search [67.15159962819979]
大規模言語モデルの革新的パラダイムを活用することにより,タンパク質配列を最適化する新しいフレームワークであるAlphaDEを提案する。
第一に、AlphaDEファインチューンは、タンパク質配列のマスク言語モデルを用いて、関心のあるタンパク質クラスの進化的妥当性を活性化するタンパク質言語モデルである。
第二に、AlphaDEはモンテカルロ木探索に基づくテスト時間推論を導入し、微調整されたタンパク質言語モデルからの進化誘導でタンパク質を効果的に進化させる。
論文 参考訳(メタデータ) (2025-11-13T03:00:52Z) - AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model [92.51919604882984]
本稿では,Flow Bayesian Networks上に構築された強力なタンパク質基盤モデルAMix-1を紹介する。
AMix-1は、事前学習のスケーリング法則、創発的能力分析、コンテキスト内学習機構、テスト時間スケーリングアルゴリズムを含む、体系的なトレーニング手法によって強化されている。
この基盤を基盤として、タンパク質設計を汎用フレームワークに統合するためのマルチシーケンスアライメント(MSA)ベースのコンテキスト内学習戦略を考案した。
論文 参考訳(メタデータ) (2025-07-11T17:02:25Z) - Steering Protein Language Models [22.308373820985793]
アクティベーションステアリング(Activation Steering)は、大規模言語モデルにおけるテキスト生成を制御するために開発された技術である。
本稿では, PLM 出力をステアリングするために, アクティベーション編集を利用する簡易かつ効果的な手法を提案する。
本手法は自動符号化と自動回帰PLMの両方にシームレスに統合できるが,追加の訓練は不要である。
論文 参考訳(メタデータ) (2025-07-01T16:03:55Z) - Steering Generative Models with Experimental Data for Protein Fitness Optimization [22.131533900376457]
タンパク質の適合性最適化は、可能なシーケンスの大きな設計空間において、所望の量的特性を最大化するシーケンスを見つけることを含む。
ステアリングタンパク質生成モデル(例えば拡散モデル、言語モデル)の最近の発展は、有望なアプローチである。
本稿では,タンパク質言語モデルを用いた強化学習などの代替手法と比較して,プラグ・アンド・プレイ指導方式が有利であることを示す。
論文 参考訳(メタデータ) (2025-05-21T04:30:48Z) - Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - Reinforcement Learning for Sequence Design Leveraging Protein Language Models [14.477268882311991]
本稿では,タンパク質言語モデル(PLM)を報酬関数として利用し,新たな配列を生成することを提案する。
我々はRLベースのアプローチをベンチマークするために、様々なシーケンス長に関する広範な実験を行う。
生物学的妥当性とタンパク質の多様性に関する総合的な評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:31:36Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language
Models [0.0]
現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化されることが多い。
タンパク質言語モデル(pLM)はタンパク質配列設計のための有望なツールである。
ProtFIMとよばれる中間変換によって訓練された言語モデルは、タンパク質工学により適していることを示す。
論文 参考訳(メタデータ) (2023-03-29T04:35:50Z) - Protein Sequence Design with Batch Bayesian Optimisation [0.0]
タンパク質配列設計は、有用な生物学的機能を持つ新規タンパク質の発見を目的とした、タンパク質工学における挑戦的な問題である。
有向進化は、実験室環境における進化のサイクルを模倣し、反復的プロトコルを実行する、タンパク質配列設計のための広く使われているアプローチである。
本稿では,タンパク質配列設計のための最適化手法であるBatch Bayesian Optimization (Batch BO) に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-18T14:53:20Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - ODBO: Bayesian Optimization with Search Space Prescreening for Directed Protein Evolution [18.726398852721204]
タンパク質指向進化のための効率的で実験的な設計指向のクローズドループ最適化フレームワークを提案する。
ODBOは、新しい低次元タンパク質エンコーディング戦略と、外乱検出による検索空間事前スクリーニングによって強化されたベイズ最適化を組み合わせている。
本研究は, タンパク質指向進化実験を4回実施し, 興味のある変異を見出すためのフレームワークの能力を実証した。
論文 参考訳(メタデータ) (2022-05-19T13:21:31Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。