論文の概要: Do Protein Transformers Have Biological Intelligence?
- arxiv url: http://arxiv.org/abs/2506.06701v1
- Date: Sat, 07 Jun 2025 07:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.441988
- Title: Do Protein Transformers Have Biological Intelligence?
- Title(参考訳): タンパク質トランスフォーマーは生物学的知能を持つか?
- Authors: Fudong Lin, Wanrou Du, Jinchan Liu, Tarikul Milon, Shelby Meche, Wu Xu, Xiaoqi Qin, Xu Yuan,
- Abstract要約: 我々は、9000以上のタンパク質データに有意なラベルを付与するタンパク質機能データセット、すなわちProtein-FNを導入する。
第2に、計算効率の良いタンパク質機能予測のための新しいトランスフォーマーアーキテクチャ、Sequence Protein Transformer (SPT) を考案する。
第3に、タンパク質モデルの決定過程を効率的に解釈できる、Sequence Scoreと呼ばれる新しい説明可能な人工知能(XAI)技術を開発した。
- 参考スコア(独自算出の注目度): 13.90184353062669
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep neural networks, particularly Transformers, have been widely adopted for predicting the functional properties of proteins. In this work, we focus on exploring whether Protein Transformers can capture biological intelligence among protein sequences. To achieve our goal, we first introduce a protein function dataset, namely Protein-FN, providing over 9000 protein data with meaningful labels. Second, we devise a new Transformer architecture, namely Sequence Protein Transformers (SPT), for computationally efficient protein function predictions. Third, we develop a novel Explainable Artificial Intelligence (XAI) technique called Sequence Score, which can efficiently interpret the decision-making processes of protein models, thereby overcoming the difficulty of deciphering biological intelligence bided in Protein Transformers. Remarkably, even our smallest SPT-Tiny model, which contains only 5.4M parameters, demonstrates impressive predictive accuracy, achieving 94.3% on the Antibiotic Resistance (AR) dataset and 99.6% on the Protein-FN dataset, all accomplished by training from scratch. Besides, our Sequence Score technique helps reveal that our SPT models can discover several meaningful patterns underlying the sequence structures of protein data, with these patterns aligning closely with the domain knowledge in the biology community. We have officially released our Protein-FN dataset on Hugging Face Datasets https://huggingface.co/datasets/Protein-FN/Protein-FN. Our code is available at https://github.com/fudong03/BioIntelligence.
- Abstract(参考訳): ディープニューラルネットワーク、特にトランスフォーマーは、タンパク質の機能的特性を予測するために広く採用されている。
本研究では,タンパク質トランスフォーマーがタンパク質配列間の生物学的インテリジェンスを捉えることができるかどうかを検討する。
目的を達成するために、まずタンパク質関数データセット、すなわちProtein-FNを導入し、9000以上のタンパク質データを有意なラベルで提供する。
第2に、計算効率の良いタンパク質機能予測のための新しいトランスフォーマーアーキテクチャ、Sequence Protein Transformer (SPT) を考案する。
第3に、タンパク質モデルの決定過程を効率的に解釈し、タンパク質トランスフォーマーで入札された生物学的インテリジェンスを解読することの難しさを克服する、Sequence Scoreと呼ばれる新しい説明可能な人工知能(XAI)技術を開発した。
注目すべきは、我々の最小のSPT-Tinyモデルでさえ、わずか5.4Mパラメータしか含んでおらず、優れた予測精度を示し、抗生物質耐性(AR)データセットで94.3%、プロテイン-FNデータセットで99.6%を達成し、すべてスクラッチからトレーニングすることで達成された。
さらに、我々のSequence Score技術は、私たちのSPTモデルが、タンパク質の配列構造に基づくいくつかの意味あるパターンを発見できることを示すのに役立つ。
私たちは、Hugging Face Datasets https://huggingface.co/datasets/Protein-FN/Protein-FNで、私たちのProtein-FNデータセットを公式にリリースしました。
私たちのコードはhttps://github.com/fudong03/BioIntelligence.comで利用可能です。
関連論文リスト
- Multi-modal Representation Learning Enables Accurate Protein Function Prediction in Low-Data Setting [0.0]
HOPER(Holistic ProtEin Representation)は、低データ設定でタンパク質機能予測(PFP)を強化するために設計された新しいフレームワークである。
本研究は,生物研究におけるデータ制限を克服するためのマルチモーダル表現学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-11-22T20:13:55Z) - Advanced atom-level representations for protein flexibility prediction utilizing graph neural networks [0.0]
我々は,タンパク質の原子レベルでの表現を学習し,タンパク質3D構造からB因子を予測するグラフニューラルネットワーク(GNN)を提案する。
Meta-GNNモデルは、4k以上のタンパク質の大規模かつ多様なテストセット上での相関係数0.71を達成する。
論文 参考訳(メタデータ) (2024-08-22T16:15:13Z) - ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - Efficiently Predicting Mutational Effect on Homologous Proteins by Evolution Encoding [7.067145619709089]
EvolMPNNは進化を意識したタンパク質の埋め込みを学習するための効率的なモデルである。
我々のモデルは最先端の手法よりも最大6.4%向上し,36倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-20T23:06:21Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Leveraging Sequence Embedding and Convolutional Neural Network for
Protein Function Prediction [27.212743275697825]
タンパク質機能予測の主な課題は、大きなラベル空間とラベル付きトレーニングデータの欠如である。
これらの課題を克服するために、教師なしシーケンス埋め込みと深部畳み込みニューラルネットワークの成功を活用する。
論文 参考訳(メタデータ) (2021-12-01T08:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。