論文の概要: Interpretable Structured Learning with Sparse Gated Sequence Encoder for
Protein-Protein Interaction Prediction
- arxiv url: http://arxiv.org/abs/2010.08514v1
- Date: Fri, 16 Oct 2020 17:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 22:07:54.467418
- Title: Interpretable Structured Learning with Sparse Gated Sequence Encoder for
Protein-Protein Interaction Prediction
- Title(参考訳): スパースゲート配列エンコーダを用いたタンパク質間相互作用予測のための解釈可能な構造化学習
- Authors: Kishan KC, Feng Cui, Anne Haake, Rui Li
- Abstract要約: アミノ酸配列から情報表現を学習することでタンパク質-タンパク質相互作用(PPI)を予測することは、生物学において難しいが重要な問題である。
我々は、シーケンスのみからPPIをモデル化し、予測するための新しいディープフレームワークを提案する。
本モデルでは,シーケンスからコンテキスト化およびシーケンシャル情報を活用することによってシーケンス表現を学習するための双方向ゲート再帰ユニットを組み込んだ。
- 参考スコア(独自算出の注目度): 2.9488233765621295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting protein-protein interactions (PPIs) by learning informative
representations from amino acid sequences is a challenging yet important
problem in biology. Although various deep learning models in Siamese
architecture have been proposed to model PPIs from sequences, these methods are
computationally expensive for a large number of PPIs due to the pairwise
encoding process. Furthermore, these methods are difficult to interpret because
of non-intuitive mappings from protein sequences to their sequence
representation. To address these challenges, we present a novel deep framework
to model and predict PPIs from sequence alone. Our model incorporates a
bidirectional gated recurrent unit to learn sequence representations by
leveraging contextualized and sequential information from sequences. We further
employ a sparse regularization to model long-range dependencies between amino
acids and to select important amino acids (protein motifs), thus enhancing
interpretability. Besides, the novel design of the encoding process makes our
model computationally efficient and scalable to an increasing number of
interactions. Experimental results on up-to-date interaction datasets
demonstrate that our model achieves superior performance compared to other
state-of-the-art methods. Literature-based case studies illustrate the ability
of our model to provide biological insights to interpret the predictions.
- Abstract(参考訳): アミノ酸配列から情報表現を学習することでタンパク質-タンパク質相互作用(PPI)を予測することは、生物学において難しいが重要な問題である。
シームズアーキテクチャにおける様々なディープラーニングモデルは、シーケンスからPPIをモデル化するために提案されているが、これらの手法は、ペアエンコーディングプロセスにより、多くのPPIに対して計算コストがかかる。
さらに、タンパク質配列から配列表現への非直感的マッピングのため、これらの手法の解釈は困難である。
これらの課題に対処するため,我々はシーケンシャルからppisをモデル化し,予測するための新しい深層フレームワークを提案する。
本モデルでは,双方向ゲートリカレントユニットを組み込んで,シーケンスからの文脈情報や逐次情報を活用し,シーケンス表現を学習する。
さらに、アミノ酸間の長距離依存性をモデル化し、重要なアミノ酸(タンパク質モチーフ)を選択するためにスパース正規化を用い、解釈可能性を高める。
さらに、符号化プロセスの新たな設計により、我々のモデルは計算効率が高く、より多くの対話にスケーラブルになる。
最新のインタラクションデータセットによる実験結果から,本モデルが他の最先端手法と比較して優れた性能を発揮することが示された。
文献に基づくケーススタディでは,モデルが予測を解釈するための生物学的洞察を提供する能力が示されている。
関連論文リスト
- Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Multi-Scale Representation Learning for Protein Fitness Prediction [31.735234482320283]
これまでの手法は主に、巨大でラベルなしのタンパク質配列や構造データセットに基づいて訓練された自己教師型モデルに依存してきた。
本稿では,タンパク質の機能を統合する新しいマルチモーダル表現学習フレームワークであるSequence-Structure-Surface Fitness (S3F)モデルを紹介する。
提案手法は,タンパク質言語モデルからの配列表現と,タンパク質のバックボーンと詳細な表面トポロジーをコードするGeometric Vector Perceptronネットワークを組み合わせる。
論文 参考訳(メタデータ) (2024-12-02T04:28:10Z) - SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。
下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文 参考訳(メタデータ) (2024-11-18T12:40:39Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Co-modeling the Sequential and Graphical Routes for Peptide
Representation Learning [67.66393016797181]
本稿では,表現の相互情報を強化するためのペプチド共モデリング手法RepConを提案する。
RepConは、正のサンプルペア間の表現の一貫性を高め、負のペア間の表現を撃退することを学ぶ。
この結果から,コモデリング手法が独立モデルよりも優れていること,コモデリングフレームワーク下での他の手法よりもRepConの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-04T16:58:25Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Predicting protein variants with equivariant graph neural networks [0.0]
我々は,同変グラフニューラルネットワーク(EGNN)と配列に基づくアプローチによる有望なアミノ酸変異の同定能力の比較を行った。
提案する構造的アプローチは, より少ない分子で訓練しながら, 配列に基づくアプローチと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-06-21T12:44:52Z) - Align-gram : Rethinking the Skip-gram Model for Protein Sequence
Analysis [0.8733639720576208]
ベクトル空間において類似の$k$-mersを互いに近接してマッピングできる新しい埋め込みスキームAlign-gramを提案する。
DeepGoPlusのシンプルなベースラインLSTMモデルと非常に複雑なCNNモデルを用いた実験は、タンパク質配列解析のための様々なタイプのディープラーニングアプリケーションを実行する上で、Align-gramの可能性を示している。
論文 参考訳(メタデータ) (2020-12-06T17:04:17Z) - Deep Learning of High-Order Interactions for Protein Interface
Prediction [58.164371994210406]
本稿では,タンパク質界面の予測を2次元密度予測問題として定式化する。
タンパク質をグラフとして表現し、グラフニューラルネットワークを用いてノードの特徴を学習する。
我々は高次対相互作用を組み込んで、異なる対相互作用を含む3次元テンソルを生成する。
論文 参考訳(メタデータ) (2020-07-18T05:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。