論文の概要: Zero-Shot Learning with Subsequence Reordering Pretraining for Compound-Protein Interaction
- arxiv url: http://arxiv.org/abs/2507.20925v1
- Date: Mon, 28 Jul 2025 15:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.184154
- Title: Zero-Shot Learning with Subsequence Reordering Pretraining for Compound-Protein Interaction
- Title(参考訳): 複合プロテイン相互作用のための順順順事前学習によるゼロショット学習
- Authors: Hongzhi Zhang, Zhonglie Liu, Kun Meng, Jiameng Chen, Jia Wu, Bo Du, Di Lin, Yan Che, Wenbin Hu,
- Abstract要約: そこで本研究では,CPI予測タスクのためのタンパク質表現をサブシーケンスリオーダーを用いて事前訓練する手法を提案する。
トレーニングデータセットのトレーニング前性能を向上させるために,長さ可変タンパク質増強法を適用した。
既存の事前学習モデルと比較して,本モデルでは特にデータスカースシナリオにおいて,優れた性能を示す。
- 参考スコア(独自算出の注目度): 39.13469810619366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the vastness of chemical space and the ongoing emergence of previously uncharacterized proteins, zero-shot compound-protein interaction (CPI) prediction better reflects the practical challenges and requirements of real-world drug development. Although existing methods perform adequately during certain CPI tasks, they still face the following challenges: (1) Representation learning from local or complete protein sequences often overlooks the complex interdependencies between subsequences, which are essential for predicting spatial structures and binding properties. (2) Dependence on large-scale or scarce multimodal protein datasets demands significant training data and computational resources, limiting scalability and efficiency. To address these challenges, we propose a novel approach that pretrains protein representations for CPI prediction tasks using subsequence reordering, explicitly capturing the dependencies between protein subsequences. Furthermore, we apply length-variable protein augmentation to ensure excellent pretraining performance on small training datasets. To evaluate the model's effectiveness and zero-shot learning ability, we combine it with various baseline methods. The results demonstrate that our approach can improve the baseline model's performance on the CPI task, especially in the challenging zero-shot scenario. Compared to existing pre-training models, our model demonstrates superior performance, particularly in data-scarce scenarios where training samples are limited. Our implementation is available at https://github.com/Hoch-Zhang/PSRP-CPI.
- Abstract(参考訳): 化学空間の広大さと、それまでの未活性化タンパク質の出現により、ゼロショット複合タンパク質相互作用(英語版)(CPI)の予測は、現実の薬物開発における現実的な課題と要求を反映している。
1) 局所的あるいは完全タンパク質配列からの表現学習は、空間構造や結合特性を予測するのに不可欠なサブシーケンス間の複雑な相互依存性を無視することが多い。
2)大規模または希少なマルチモーダルタンパク質データセットへの依存は、スケーラビリティと効率を制限し、膨大なトレーニングデータと計算資源を必要とする。
これらの課題に対処するために、サブシーケンスリオーダーを用いてCPI予測タスクのためのタンパク質表現を事前訓練し、タンパク質サブシーケンス間の依存関係を明示的にキャプチャする新しいアプローチを提案する。
さらに, トレーニングデータセットのトレーニング前性能を向上させるために, 長さ可変タンパク質増量法を適用した。
モデルの有効性とゼロショット学習能力を評価するため,様々なベースライン手法と組み合わせた。
提案手法は,CPIタスクにおけるベースラインモデルの性能,特に難易度ゼロショットシナリオにおいて改善可能であることを示す。
既存の事前学習モデルと比較して、トレーニングサンプルが限定されたデータスカースシナリオにおいて、我々のモデルは優れたパフォーマンスを示す。
実装はhttps://github.com/Hoch-Zhang/PSRP-CPIで公開しています。
関連論文リスト
- Curriculum Learning for Biological Sequence Prediction: The Case of De Novo Peptide Sequencing [21.01399785232482]
本稿では,構造的タンパク質配列学習戦略を取り入れた非自己回帰ペプチドシークエンシングモデルを提案する。
我々のカリキュラム学習戦略は、様々なデータ分布に対するサンプルトレーニングに基づいて、NATトレーニング失敗頻度を90%以上削減する。
論文 参考訳(メタデータ) (2025-06-16T13:44:25Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。
下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文 参考訳(メタデータ) (2024-11-18T12:40:39Z) - Task Consistent Prototype Learning for Incremental Few-shot Semantic Segmentation [20.49085411104439]
Incrmental Few-Shot Semantic (iFSS)は、新しいクラスにおけるセグメンテーション能力を継続的に拡張するモデルを必要とするタスクに取り組む。
本研究では,メタラーニングに基づくプロトタイプ手法を導入し,モデルに事前知識を保ちながら,迅速な適応方法の学習を促す。
PASCALとCOCOベンチマークに基づいて構築されたiFSSデータセットの実験は、提案手法の高度な性能を示している。
論文 参考訳(メタデータ) (2024-10-16T23:42:27Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - A Supervised Machine Learning Approach for Sequence Based
Protein-protein Interaction (PPI) Prediction [4.916874464940376]
計算タンパク質間相互作用(PPI)予測技術は、時間、コスト、偽陽性相互作用の低減に大きく貢献する。
提案したソリューションをSeqPIPコンペティションの結果とともに紹介した。
論文 参考訳(メタデータ) (2022-03-23T18:27:25Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。