論文の概要: Protein Language Models Diverge from Natural Language: Comparative Analysis and Improved Inference
- arxiv url: http://arxiv.org/abs/2602.20449v1
- Date: Tue, 24 Feb 2026 01:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.565563
- Title: Protein Language Models Diverge from Natural Language: Comparative Analysis and Improved Inference
- Title(参考訳): 自然言語から切り離されたタンパク質言語モデル:比較分析と推論の改善
- Authors: Anna Hart, Chi Han, Jeonghwan Kim, Huimin Zhao, Heng Ji,
- Abstract要約: タンパク質ドメインにおいてトランスフォーマーベースのアーキテクチャがどのように異なる動作を行うかを研究する。
我々は、元々自然言語領域で用いられていた手法を適応させ、効率を向上する。
我々の研究は、言語モデルがタンパク質ドメインに移動するときの行動がどのように変化するかを直接比較する研究領域を開く。
- 参考スコア(独自算出の注目度): 48.40141018754587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Protein Language Models (PLMs) apply transformer-based model architectures from natural language processing to biological sequences, predicting a variety of protein functions and properties. However, protein language has key differences from natural language, such as a rich functional space despite a vocabulary of only 20 amino acids. These differences motivate research into how transformer-based architectures operate differently in the protein domain and how we can better leverage PLMs to solve protein-related tasks. In this work, we begin by directly comparing how the distribution of information stored across layers of attention heads differs between the protein and natural language domain. Furthermore, we adapt a simple early-exit technique-originally used in the natural language domain to improve efficiency at the cost of performance-to achieve both increased accuracy and substantial efficiency gains in protein non-structural property prediction by allowing the model to automatically select protein representations from the intermediate layers of the PLMs for the specific task and protein at hand. We achieve performance gains ranging from 0.4 to 7.01 percentage points while simultaneously improving efficiency by over 10 percent across models and non-structural prediction tasks. Our work opens up an area of research directly comparing how language models change behavior when moved into the protein domain and advances language modeling in biological domains.
- Abstract(参考訳): 現代のタンパク質言語モデル(PLM)は、自然言語処理から生物学的配列へのトランスフォーマーベースのモデルアーキテクチャを適用し、様々なタンパク質の機能や性質を予測する。
しかし、タンパク質言語は、わずか20アミノ酸の語彙にもかかわらず、リッチな機能空間のような自然言語と重要な違いがある。
これらの違いは、トランスフォーマーベースのアーキテクチャがタンパク質ドメインでどのように機能するか、そしてタンパク質関連の課題を解決するためにどのようにPLMをうまく活用するかの研究を動機付けている。
本研究は,タンパク質と自然言語領域間で,注目の層に蓄積された情報の分布がどう異なるかを直接比較することから始める。
さらに,本研究では,PLMの中間層からタンパク質の表現を自動的に選択することで,タンパク質の非構造的特性予測における精度の向上と実質的な効率向上を両立させるため,自然言語領域で当初使用されていた単純な早期発現技術を適用した。
我々は、0.4から7.01ポイントのパフォーマンス向上と、モデルと非構造予測タスク間の効率の10%以上の改善を実現している。
我々の研究は、タンパク質ドメインに移動すると言語モデルがどのように振舞うかを直接比較する研究領域を開き、生物学的ドメインにおける言語モデリングを進歩させる。
関連論文リスト
- Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文 参考訳(メタデータ) (2025-12-10T05:34:47Z) - Protein as a Second Language for LLMs [50.34983283157322]
『Protein-as-Second-Language』の枠組みは、新しいシンボリック言語における文としてアミノ酸配列を再構成する。
属性予測,記述的理解,拡張推論にまたがる79,926個のタンパク質-QAインスタンスのバイリンガルコーパスをキュレートする。
提案手法は,オープンソース LLM と GPT-4 間で一貫した利得を提供し,最大 17.2% のROUGE-L 改善を実現している。
論文 参考訳(メタデータ) (2025-10-13T09:21:45Z) - ProtCLIP: Function-Informed Protein Multi-Modal Learning [18.61302416993122]
ProtCLIPは,機能認識タンパク質の埋め込みを表現した多モード基盤モデルである。
当社のProtCLIPは,5つのクロスモーダル変換ベンチマークにおいて,平均75%の大幅な改善を実現している。
実験により,タンパク質多量性基盤モデルとしてのProtCLIPの異常なポテンシャルが検証された。
論文 参考訳(メタデータ) (2024-12-28T04:23:47Z) - Long-context Protein Language Modeling Using Bidirectional Mamba with Shared Projection Layers [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで本研究では,選択的構造化状態空間モデルに基づく代替タンパク質であるBiMamba-Sに基づくLC-PLMを提案する。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。