論文の概要: Steering Protein Language Models
- arxiv url: http://arxiv.org/abs/2509.07983v2
- Date: Fri, 12 Sep 2025 12:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 14:04:03.10407
- Title: Steering Protein Language Models
- Title(参考訳): ステアリングタンパク質言語モデル
- Authors: Long-Kai Huang, Rongyi Zhu, Bing He, Jianhua Yao,
- Abstract要約: アクティベーションステアリング(Activation Steering)は、大規模言語モデルにおけるテキスト生成を制御するために開発された技術である。
本稿では, PLM 出力をステアリングするために, アクティベーション編集を利用する簡易かつ効果的な手法を提案する。
本手法は自動符号化と自動回帰PLMの両方にシームレスに統合できるが,追加の訓練は不要である。
- 参考スコア(独自算出の注目度): 22.308373820985793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein Language Models (PLMs), pre-trained on extensive evolutionary data from natural proteins, have emerged as indispensable tools for protein design. While powerful, PLMs often struggle to produce proteins with precisely specified functionalities or properties due to inherent challenges in controlling their outputs. In this work, we investigate the potential of Activation Steering, a technique originally developed for controlling text generation in Large Language Models (LLMs), to direct PLMs toward generating protein sequences with targeted properties. We propose a simple yet effective method that employs activation editing to steer PLM outputs, and extend this approach to protein optimization through a novel editing site identification module. Through comprehensive experiments on lysozyme-like sequence generation and optimization, we demonstrate that our methods can be seamlessly integrated into both auto-encoding and autoregressive PLMs without requiring additional training. These results highlight a promising direction for precise protein engineering using foundation models.
- Abstract(参考訳): タンパク質言語モデル(PLM)は、天然タンパク質からの広範な進化データに基づいて事前訓練され、タンパク質設計に欠かせないツールとして登場した。
強力ではあるが、PLMは出力を制御するのに固有の課題のために、正確に指定された機能や性質を持つタンパク質を生産するのに苦労する。
本研究では,Large Language Models (LLM) のテキスト生成制御技術である Activation Steering の可能性を検討した。
そこで本稿では, PLM 出力のステアリングにアクティベーション編集を利用する簡易かつ効果的な手法を提案し, 新規な編集サイト識別モジュールを用いて, タンパク質の最適化にアプローチを拡張した。
リゾザイムのような配列生成と最適化に関する包括的な実験を通じて、我々の手法が追加の訓練を必要とせず、自動エンコーディングと自己回帰型PLMの両方にシームレスに統合できることを実証した。
これらの結果は,基礎モデルを用いたタンパク質工学の高精度化に向けた有望な方向性を示すものである。
関連論文リスト
- ProtTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models [8.520384176663423]
大規模言語モデルは分子科学の分野で顕著な進歩を遂げた。
タンパク質科学において、アミノ酸配列はLDMの唯一のトークン化剤として機能する。
本稿では,タンパク質配列,構造,テキスト情報を統一された離散空間にトークン化する新しいフレームワークであるProtを紹介する。
論文 参考訳(メタデータ) (2025-03-11T08:43:05Z) - Controllable Protein Sequence Generation with LLM Preference Optimization [19.28325662879149]
我々はCtrlProtと呼ばれる新しい制御可能なタンパク質設計法を提案する。
実験により、CtrlProtは機能と構造安定性の要求を効果的に満たせることが示された。
論文 参考訳(メタデータ) (2025-01-25T00:59:12Z) - Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - Large Language Model is Secretly a Protein Sequence Optimizer [24.55348363931866]
本研究では,与えられた野生型配列から,高い適合度を持つタンパク質配列を見つけることを目的としたタンパク質配列工学的問題を考える。
大規模言語モデル(LLM)は、大量のテキストで訓練されているにもかかわらず、秘密裏にタンパク質配列であることを示す。
論文 参考訳(メタデータ) (2025-01-16T03:44:16Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。