論文の概要: PROTOCOL: Late Interaction Retrieval for Protein Homolog Search
- arxiv url: http://arxiv.org/abs/2605.29158v1
- Date: Wed, 27 May 2026 22:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.55007
- Title: PROTOCOL: Late Interaction Retrieval for Protein Homolog Search
- Title(参考訳): PROTOCOL:タンパク質ホモログ検索のための遅延相互作用検索
- Authors: Gabrielle Cohn, Rohan Gumaste, Minh Hoang, Vihan Lakshman,
- Abstract要約: ProtoColはタンパク質を残基埋め込みの集合として表現するモデルである。
タンパク質を独立にコードし、候補表現を事前計算可能とし、残基の埋め込みよりもMaxSimで候補を採点する。
SCOPeスーパーファミリーとPfamファミリーのベンチマークでは、ProtoColはシーケンスコンポジション、アライメントベース、プールされたPLM、訓練された単一ベクトルベースラインより優れている。
- 参考スコア(独自算出の注目度): 8.797956246984388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein homology search underlies function annotation, structure prediction, and evolutionary analysis, but remains challenging in the "twilight zone," where global sequence similarity is weak and classical alignment methods lose sensitivity. Protein language models provide context-aware representations that could improve alignment sensitivity in this regime. However, prior protein embedding-based retrieval pipelines often pool these representations into a single vector, potentially obscuring local motifs, domains, or conserved residues that reveal remote homology. We introduce ProtoCol, a model which represents proteins as sets of residue embeddings and uses ColBERT-style late interaction to test whether residue-level comparison improves homolog retrieval. ProtoCol encodes proteins independently, keeps candidate representations pre-computable, and scores candidates with MaxSim over residue embeddings. On SCOPe superfamily and Pfam clan benchmarks, ProtoCol outperforms sequence-composition, alignment-based, pooled PLM, and trained single-vector baselines, supporting late interaction as an effective retrieval layer for remote homology search.
- Abstract(参考訳): タンパク質ホモロジー探索は機能アノテーション、構造予測、進化解析を基礎としているが、グローバルな配列の類似性が弱く古典的なアライメント手法が感度を失う「トワイライトゾーン」では依然として困難である。
タンパク質言語モデルは、この体制におけるアライメントの感度を改善するための文脈認識表現を提供する。
しかし、タンパク質の埋め込みに基づく検索パイプラインは、しばしばこれらの表現を単一のベクターにプールし、局所的なモチーフ、ドメイン、あるいはリモートホモロジーを示す保存された残基を隠蔽する可能性がある。
タンパク質を残基埋め込みの集合として表現するモデルであるProtoColを導入し、ColBERTスタイルの遅延相互作用を用いて残基レベルの比較がホモログ検索を改善するかどうかを検証する。
ProtoColはタンパク質を独立にコードし、候補表現を事前計算可能とし、MaxSimで候補を残基埋め込みでスコアする。
SCOPeスーパーファミリーとPfamファミリーのベンチマークでは、ProtoColはシーケンス構成、アライメントベース、プールされたPLM、トレーニングされた単一ベクトルベースラインを上回り、遠隔ホモロジー検索の有効な検索層として遅延相互作用をサポートする。
関連論文リスト
- Protein Thoughts: Interpretable Reasoning with Tree of Thoughts and Embedding-Space Flow Matching for Protein-Protein Interaction Discovery [9.70057752523548]
我々は、明示的な推論を伴う解釈可能な探索問題として、PPI発見を再構成するフレームワークである textbfProtein Thoughts を提案する。
タンパク質思考は、エントロピー木探索ベースラインにおいて平均11.2対47.7の平均的バインダーランクを達成し、76%の改善、および結合予測のために、訓練された値関数は91.08 pm 0.19$ Micro-F1に達する。
論文 参考訳(メタデータ) (2026-05-19T04:14:06Z) - S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [88.98041407783502]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - Hierarchical Multi-Label Contrastive Learning for Protein-Protein Interaction Prediction Across Organisms [2.399426243085768]
タンパク質間相互作用予測のための階層的コントラストフレームワークであるHIPPOを提案する。
提案手法は、タンパク質の機能クラス間の構造的関係をエミュレートする階層的コントラスト損失関数を含む。
ベンチマークデータセットの実験では、HIPPOが最先端のパフォーマンスを達成し、既存のメソッドを上回り、低データのレシエーションにおいて堅牢性を示すことが示されている。
論文 参考訳(メタデータ) (2025-07-03T15:41:04Z) - A PLMs based protein retrieval framework [3.878994100846403]
本稿では,配列類似性に対するバイアスを緩和する新規なタンパク質検索フレームワークを提案する。
我々のフレームワークは、タンパク質の配列を高次元の特徴空間に埋め込むために、タンパク質言語モデル(PLM)を主導的に活用する。
大規模な実験により、我々のフレームワークは類似タンパク質と異種タンパク質の両方を等しく回収できることが示された。
論文 参考訳(メタデータ) (2024-07-16T09:52:42Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。